英伟达推出新型AI音频模型Fugatto
AI导读:
英伟达开发出新型AI模型Fugatto,能创造声音效果、改变发音方式,并生成音乐,将对音乐、娱乐等行业产生广泛影响。
据报道,全球领先的图形处理器制造商英伟达(Nvidia)近期公布了一项重大研发成果,成功开发出一种名为Fugatto的新型人工智能(AI)模型。这款模型功能强大,不仅能够创造各种声音效果,还能改变人的发音方式,并且可以通过自然语言提示直接生成音乐,展示了AI技术在音频领域的全新突破。
Fugatto,即Foundational Generative Audio Transformer Opus 1,作为英伟达的一个研究项目,虽未公开具体发布计划,但其潜在影响力不容小觑。英伟达预计,该模型将对音乐、娱乐、翻译服务等多个行业产生深远影响,开启音频处理的新纪元。
英伟达应用深度学习研究副总裁Bryan Catanzaro在接受专访时指出:“Fugatto最令人激动之处在于,它能够响应指令,以特定方式发声,极大地拓展了我们对AI应用场景的想象空间。”他进一步解释说,市场上的现有模型大多功能单一,有的只能合成语音,有的仅为音乐添加音效,而Fugatto则集多种功能于一身,成为视频和图像生成模型(如Stability AI的Stable Video Diffusion或OpenAI的Sora)的绝佳补充。
Catanzaro补充道:“该模型的最大创新在于,它能够根据语言指令合成音频,为人们提供了前所未有的音频创作工具。”他进一步举例说,Fugatto既可以接受标准文字提示生成音频,也可以处理用户上传的音频文件。比如,用户可以上传一个人说话的音频文件,模型能够将其翻译成另一种语言,同时保持原声特征。此外,用户还可以将简单的曲调转换成复杂的管弦乐表演,或在音乐中随意添加各种节拍。
不仅如此,Fugatto还支持文档上传功能,可以根据用户指定的声音朗读文档内容。更令人惊叹的是,它能够识别并发出带有情感色彩的声音,为用户带来更加真实、自然的听觉体验。然而,Catanzaro也坦诚地表示,尽管Fugatto功能强大,但它并非无所不能,仍需不断优化和完善。同时,他也理解该技术可能引发艺术家、音响工程师等相关领域人员的担忧,但他坚信,这项技术将为音乐家带来新的创作灵感和工具。
“我希望Fugatto能成为艺术家探索的新工具,推动音频领域的创新发展。”Catanzaro满怀期待地说,“我相信,随着新音频工具的出现,我们将迎来全新的音乐形式。”
(文章来源:财联社)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。