AI导读:

英伟达研发出新型AI模型Fugatto,可创造声音效果、改变发音方式并生成音乐,对多个行业将产生广泛影响。


据报道,全球图形处理器(GPU)巨头英伟达(Nvidia)近期成功研发出一种新型的人工智能(AI)模型——Fugatto,全称Foundational Generative Audio Transformer Opus 1。这款模型不仅能够创造出丰富的声音效果,还能改变人的发音方式,并且能够根据自然语言提示生成音乐,展现了极高的技术创新能力。

英伟达方面透露,Fugatto目前仍属于研究项目阶段,公司尚未公布将其商业化的具体计划。然而,这一技术的潜在影响已备受瞩目,预计将对音乐、娱乐、翻译服务等多个行业带来深远变革。英伟达应用深度学习研究副总裁Bryan Catanzaro在接受采访时表示,Fugatto最令人激动之处在于其广泛的适用性,用户只需通过简单的指令,即可要求模型以特定方式发声,这无疑极大地拓宽了人们对AI音频应用领域的想象空间。

Catanzaro进一步阐释了Fugatto的独特优势,指出市场上的其他模型往往只能实现语音合成或音乐音效添加等功能,而Fugatto则集这些功能于一身,且性能卓越。他将其视为视频和图像生成模型(如Stability AI的Stable Video Diffusion或OpenAI的Sora)的重要补充,共同推动了AI技术在多媒体领域的发展。

英伟达强调,Fugatto作为首个具备新兴特性的基础模型,能够混合经过训练的元素,并遵循“自由形式的指令”,从而实现了更为灵活和多样的音频生成方式。具体而言,该模型不仅能够通过标准的文字提示生成音频,还能处理用户上传的音频文件,实现语音翻译、音乐风格转换以及添加节拍等多种功能。此外,用户还可以上传文档,让模型以任意声音朗读,并赋予声音情感分量,进一步提升了音频创作的自由度和表现力。

然而,Catanzaro也坦诚地指出,尽管Fugatto技术先进,但并非总是完美无缺。与生成图像和视频的模型类似,Fugatto也可能引发艺术家、音响工程师等相关领域人员的担忧。但他强调,这项技术的初衷是帮助音乐家等创作者探索新的艺术表现形式,推动音频领域的创新发展。

“我希望这是艺术家探索的新工具。”Catanzaro表示,“我认为音频一直是一个富有成效的探索领域。当我们获得新的音频工具时,往往会催生出新的音乐形式。”他期待Fugatto能够成为艺术家们手中的利器,为音乐创作带来无限可能。

(文章来源:财联社)