英伟达推出新型AI音频模型Fugatto

财经聚焦 2024-11-26 08:35:26 来源：财联社作者：网络

AI导读：

英伟达开发出新型AI模型Fugatto，能创造声音效果、改变发音方式，并生成音乐，将对音乐、娱乐等行业产生广泛影响。

据报道，全球领先的图形处理器制造商英伟达（Nvidia）近期公布了一项重大研发成果，成功开发出一种名为Fugatto的新型人工智能（AI）模型。这款模型功能强大，不仅能够创造各种声音效果，还能改变人的发音方式，并且可以通过自然语言提示直接生成音乐，展示了AI技术在音频领域的全新突破。

Fugatto，即Foundational Generative Audio Transformer Opus 1，作为英伟达的一个研究项目，虽未公开具体发布计划，但其潜在影响力不容小觑。英伟达预计，该模型将对音乐、娱乐、翻译服务等多个行业产生深远影响，开启音频处理的新纪元。

英伟达应用深度学习研究副总裁Bryan Catanzaro在接受专访时指出：“Fugatto最令人激动之处在于，它能够响应指令，以特定方式发声，极大地拓展了我们对AI应用场景的想象空间。”他进一步解释说，市场上的现有模型大多功能单一，有的只能合成语音，有的仅为音乐添加音效，而Fugatto则集多种功能于一身，成为视频和图像生成模型（如Stability AI的Stable Video Diffusion或OpenAI的Sora）的绝佳补充。

Catanzaro补充道：“该模型的最大创新在于，它能够根据语言指令合成音频，为人们提供了前所未有的音频创作工具。”他进一步举例说，Fugatto既可以接受标准文字提示生成音频，也可以处理用户上传的音频文件。比如，用户可以上传一个人说话的音频文件，模型能够将其翻译成另一种语言，同时保持原声特征。此外，用户还可以将简单的曲调转换成复杂的管弦乐表演，或在音乐中随意添加各种节拍。

不仅如此，Fugatto还支持文档上传功能，可以根据用户指定的声音朗读文档内容。更令人惊叹的是，它能够识别并发出带有情感色彩的声音，为用户带来更加真实、自然的听觉体验。然而，Catanzaro也坦诚地表示，尽管Fugatto功能强大，但它并非无所不能，仍需不断优化和完善。同时，他也理解该技术可能引发艺术家、音响工程师等相关领域人员的担忧，但他坚信，这项技术将为音乐家带来新的创作灵感和工具。

“我希望Fugatto能成为艺术家探索的新工具，推动音频领域的创新发展。”Catanzaro满怀期待地说，“我相信，随着新音频工具的出现，我们将迎来全新的音乐形式。”

（文章来源：财联社）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。