AI导读:

春节前,国内AI大模型领域迎来密集更新,包括MiniMax海螺、字节豆包、DeepSeek和月之暗面Kimi等公司相继推出新模型,缩小与OpenAI的技术差距。同时,腾讯混元开源了3D生成大模型2.0版本,探索新领域。

春节前,国内AI大模型领域迎来了一波密集的技术更新与创新。

1月20日上午,MiniMax海螺率先推出了语音功能,紧随其后,字节豆包在同日下午上线了实时语音大模型。当日晚间,DeepSeek紧随其后,发布了DeepSeek-R1模型。仅仅一个多小时后,月之暗面Kimi也迅速推出了k1.5多模态思考模型,这两家公司均宣称其新模型性能可与OpenAI的o1正式版相媲美。

此番更新不仅涵盖了追赶OpenAI o1系列推理模型的步伐,还包括了对OpenAI实时语音功能的跟进。次日,腾讯则开源了其混元3D生成大模型2.0版本,这一新版本指向了一个全新的方向——3D生成大模型,旨在为游戏、具身智能等领域提供大模型应用支持。与此同时,一直注重应用实践的百度也开启了“自由画布”应用的公测,百度副总裁王颖透露,百度文库AI功能的月活跃用户已突破9000万大关。此外,这些大模型企业在更新技术的同时,也透露了后续的迭代方向,这些信号可能预示着今年大模型领域的竞争态势。

缩小与OpenAI的技术差距

一位国内头部大模型厂商的研发人员,在仔细研究了Kimi k1.5和DeepSeek-R1的技术报告后表示,这两个新模型的更新方向与OpenAI o1系列的长思维链推理方向大致相符,尽管技术方案可能并不完全相同。他指出,这类模型的迭代关键在于技术指标的提升,而非功能的简单增加。

目前,虽然并非所有国内头部大模型厂商都已追赶上OpenAI o1的能力,但最新更新的两个模型在某些关键能力上已逼近o1。月之暗面声称,在long-CoT(长链思维)模式下,Kimi k1.5在数学、代码、多模态推理等方面的能力已达到长思考SOTA(领域最优)模型o1正式版的水平,这是OpenAI之外首次有公司实现o1正式版的多模态推理性能。而DeepSeek则表示,DeepSeek-R1在数学、代码、自然语言推理等任务上的性能与o1正式版相当,且其API服务定价远低于o1。

相较于闭源的OpenAI o1,这两家大模型公司对新模型的态度更为开放。Kimi首次公开了模型训练技术报告,而DeepSeek-R1在上线API接口的同时,也开源了模型权重。从发布时间来看,国内大模型公司与OpenAI的技术差距可能已缩短至1个多月。

一些学术界人士对新推出的模型给予了高度评价。加利福尼亚大学伯克利分校教授Alex Dimakis表示,与他交流过的多数AI研究人员都对DeepSeek-R1的性能感到震惊,认为DeepSeek似乎正在践行OpenAI的初衷,即做真正开放、为所有人赋能的前沿研究。英伟达高级研究科学家Jim Fan也表示,DeepSeek-R1可能是第一个展示了强化学习飞轮可发挥作用且能带来持续增长的开源软件项目。

在发布新模型的同时,月之暗面还透露了下一步的迭代方向,称将继续升级k系列强化学习模型,以提供更多模态、更多领域的能力和更强的通用能力。

在语音方面,OpenAI去年5月发布了可实时语音交互的4o模型,并于9月向ChatGPT订阅用户开放了高级语音模式。而MiniMax和字节豆包的语音功能上线时间距离OpenAI开放高级语音模式则近4个月。

探索新领域:3D生成大模型

1月21日下午,腾讯混元开源了其3D生成大模型2.0版本,该大模型支持从文本、图片生成3D内容的能力。同时,混元还上线了3D内容AI创作平台——混元3D AI创作引擎。

与OpenAI等大模型厂商在大语言模型领域推进长思维链推理、多模态交互的方向不同,腾讯混元3D生成大模型针对的是3D资产生成,旨在满足游戏制作、电商广告、工业制造、具身智能等领域的需求。据介绍,混元3D生成能力已应用于腾讯内部游戏业务,可大幅降低3D资产制作的时间成本,并已用于腾讯地图的3D导航车标自定义。

腾讯游戏在研项目制作人王智刚表示,他负责的项目正在提高AI在制作管线中的渗透率。使用AI辅助后,制作一个游戏图标的时间已从一两天降至几十秒,成本从几百元降至几分钱。目前,2D环节原画已普遍采用AI生成,而3D生成大模型技术也在不断提升3D资产制作效率。随着技术的优化,未来该技术有望应用于更多偏写实的游戏项目中。

腾讯混元3D负责人郭春超介绍称,已有多个具身智能机器人团队和自动驾驶公司找到混元,希望获得接口来生成机器人仿真环境中的3D资产或用于自动驾驶数据的生成。

从技术可提升空间来看,郭春超表示,业界关于大语言模型缩放定律是否失效的讨论仍在继续,但3D领域距离缩放定律触碰天花板还有很远。原因在于3D领域数据量相对较少,而文本领域的数据量则是千亿级别,图片领域的数据量也是百亿级别。

然而,3D生成大模型领域也面临着挑战。郭春超指出,最大的技术挑战在于数据量不足。从成熟度来看,3D和视频大模型仍处于发展初期阶段。

关于3D生成大模型技术的未来发展方向,业界存在较大分歧。目前主要流派包括纯视频生成、可交互视频生成、世界模型等。郭春超表示,团队一直在思考3D生成大模型的下一步迭代方向,可能包括从生成3D人物或物体延伸到生成3D场景等,但具体形态还需进一步探索。

(文章来源:第一财经,有删改)