AI导读:

英伟达CEO黄仁勋在CES大会上发布物理AI大模型Cosmos,旨在普及物理AI,推动机器人和自动驾驶汽车开发。该模型允许开发者结合多元输入生成基于物理学的视频,预测现实环境。目前,世界基础模型仍处于初级阶段,但已有多个公司推出相关产品。

被全球科技巨头如谷歌、OpenAI、微软等一致看好的具身智能领域,正迅速迈向其标志性的ChatGPT时刻。

近期,英伟达CEO黄仁勋在CES大会上震撼发布了物理AI大模型Cosmos。该模型允许开发者结合文本、图像、视频等多元输入,以及机器人传感器或运动数据,生成基于物理学的视频,进而预测现实环境(涵盖仓库、工厂、交通路况等),并据此对机器人和自动驾驶汽车进行有效训练。

物理AI大模型,作为世界基础模型的核心,能够深入理解世界语言、物理特性和空间位置等关键要素,并据此合成相关物理数据。它是加速智能汽车、具身智能等AI终端广泛应用的关键驱动力。然而,相较于ChatGPT等大语言模型的迅猛发展,世界模型目前仍处于初级阶段,面临开发成本高昂及难以持续遵循物理规则等挑战。

值得关注的是,英伟达此次发布的Cosmos将以开源形式推出,首批用户涵盖了1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi以及小鹏汽车等国内外知名的机器人和汽车制造厂商。

实际上,英伟达早在2024年6月就尝试利用逼真的物理环境对机器人进行训练,当时其推出的仿真框架RoboCasa提供了超过150个类别的数千个3D模型和多种可交互的家具家电,相关实验成功验证了合成物理数据在机器人训练中的实际效用。

黄仁勋强调:“世界基础模型是推动机器人和自动驾驶汽车开发的重要基石,但并非所有开发者都具备自主训练模型所需的专业知识和资源。我们打造Cosmos旨在普及物理AI,使每位开发者都能掌握通用机器人技术。”

迄今为止,已有多个公司推出了世界基础模型。例如,谷歌在2024年12月5日发布了大型基础世界模型Genie2,能够生成高度逼真的3D世界;同年9月,1XTechnologies发布了人形机器人世界模型,能够模拟机器人在不同动作下的未来场景。

此外,视频生成模型也被视为通往世界基础模型的一条重要途径。在视频生成领域,Sora、Runway等企业均表达了进军世界模型的意愿。开源证券指出,视频生成和世界模型在多个方面存在相似之处,它们都将复杂外部世界的数据进行编码、压缩和抽象,转化为低维度的向量,并利用Transformer或其他模型在时空维度上学习这些知识,从而实现预测。

华泰证券的最新研报指出,受文本大模型的启发,人形机器人领域也开始构建具身大模型,首要任务是解决数据问题。自动驾驶可以简化为3D空间中的2D运动,而机器人则是3D空间中的3D运动,还需包含力触觉等信息,因此理论上机器人所需的数据量远超自动驾驶。目前,人形机器人训练数据的收集主要依靠以下三种方式:

  • 采集真机数据,如人穿戴动作捕捉服,虽然数据质量高,但采集成本高且速度慢;
  • 利用仿真环境生成合成数据,对机器人进行训练;
  • 根据现有的互联网视频捕捉动作数据,虽无需构建仿真物理引擎,但涉及复杂的坐标转换,且缺少力触觉等信息维度。

华泰证券认为,在上述三种方式中,合成数据将极大推动机器人的发展。学界已经验证了这种方式的可行性,机器人大脑正迎来其ChatGPT时刻。

(文章来源:科创板日报,图片来源于网络)