AI导读:

英伟达开发出新型AI模型Fugatto,能创造声音效果、改变发音方式,并生成音乐,将对音乐、娱乐等行业产生广泛影响。


据报道,全球领先的图形处理器制造商英伟达(Nvidia)近期公布了一项重大研发成果,成功开发出一种名为Fugatto的新型人工智能(AI)模型。这款模型功能强大,不仅能够创造各种声音效果,还能改变人的发音方式,并且可以通过自然语言提示直接生成音乐,展示了AI技术在音频领域的全新突破。

Fugatto,即Foundational Generative Audio Transformer Opus 1,作为英伟达的一个研究项目,虽未公开具体发布计划,但其潜在影响力不容小觑。英伟达预计,该模型将对音乐、娱乐、翻译服务等多个行业产生深远影响,开启音频处理的新纪元。

英伟达应用深度学习研究副总裁Bryan Catanzaro在接受专访时指出:“Fugatto最令人激动之处在于,它能够响应指令,以特定方式发声,极大地拓展了我们对AI应用场景的想象空间。”他进一步解释说,市场上的现有模型大多功能单一,有的只能合成语音,有的仅为音乐添加音效,而Fugatto则集多种功能于一身,成为视频和图像生成模型(如Stability AI的Stable Video Diffusion或OpenAI的Sora)的绝佳补充。

Catanzaro补充道:“该模型的最大创新在于,它能够根据语言指令合成音频,为人们提供了前所未有的音频创作工具。”他进一步举例说,Fugatto既可以接受标准文字提示生成音频,也可以处理用户上传的音频文件。比如,用户可以上传一个人说话的音频文件,模型能够将其翻译成另一种语言,同时保持原声特征。此外,用户还可以将简单的曲调转换成复杂的管弦乐表演,或在音乐中随意添加各种节拍。

不仅如此,Fugatto还支持文档上传功能,可以根据用户指定的声音朗读文档内容。更令人惊叹的是,它能够识别并发出带有情感色彩的声音,为用户带来更加真实、自然的听觉体验。然而,Catanzaro也坦诚地表示,尽管Fugatto功能强大,但它并非无所不能,仍需不断优化和完善。同时,他也理解该技术可能引发艺术家、音响工程师等相关领域人员的担忧,但他坚信,这项技术将为音乐家带来新的创作灵感和工具。

“我希望Fugatto能成为艺术家探索的新工具,推动音频领域的创新发展。”Catanzaro满怀期待地说,“我相信,随着新音频工具的出现,我们将迎来全新的音乐形式。”

(文章来源:财联社)