英伟达研发新型AI模型Fugatto,引领音频创新
AI导读:
英伟达研发出新型AI模型Fugatto,可创造声音效果、改变发音方式并生成音乐,对多个行业将产生广泛影响。
据报道,全球图形处理器(GPU)巨头英伟达(Nvidia)近期成功研发出一种新型的人工智能(AI)模型——Fugatto,全称Foundational Generative Audio Transformer Opus 1。这款模型不仅能够创造出丰富的声音效果,还能改变人的发音方式,并且能够根据自然语言提示生成音乐,展现了极高的技术创新能力。
英伟达方面透露,Fugatto目前仍属于研究项目阶段,公司尚未公布将其商业化的具体计划。然而,这一技术的潜在影响已备受瞩目,预计将对音乐、娱乐、翻译服务等多个行业带来深远变革。英伟达应用深度学习研究副总裁Bryan Catanzaro在接受采访时表示,Fugatto最令人激动之处在于其广泛的适用性,用户只需通过简单的指令,即可要求模型以特定方式发声,这无疑极大地拓宽了人们对AI音频应用领域的想象空间。
Catanzaro进一步阐释了Fugatto的独特优势,指出市场上的其他模型往往只能实现语音合成或音乐音效添加等功能,而Fugatto则集这些功能于一身,且性能卓越。他将其视为视频和图像生成模型(如Stability AI的Stable Video Diffusion或OpenAI的Sora)的重要补充,共同推动了AI技术在多媒体领域的发展。
英伟达强调,Fugatto作为首个具备新兴特性的基础模型,能够混合经过训练的元素,并遵循“自由形式的指令”,从而实现了更为灵活和多样的音频生成方式。具体而言,该模型不仅能够通过标准的文字提示生成音频,还能处理用户上传的音频文件,实现语音翻译、音乐风格转换以及添加节拍等多种功能。此外,用户还可以上传文档,让模型以任意声音朗读,并赋予声音情感分量,进一步提升了音频创作的自由度和表现力。
然而,Catanzaro也坦诚地指出,尽管Fugatto技术先进,但并非总是完美无缺。与生成图像和视频的模型类似,Fugatto也可能引发艺术家、音响工程师等相关领域人员的担忧。但他强调,这项技术的初衷是帮助音乐家等创作者探索新的艺术表现形式,推动音频领域的创新发展。
“我希望这是艺术家探索的新工具。”Catanzaro表示,“我认为音频一直是一个富有成效的探索领域。当我们获得新的音频工具时,往往会催生出新的音乐形式。”他期待Fugatto能够成为艺术家们手中的利器,为音乐创作带来无限可能。
(文章来源:财联社)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。