英伟达发布物理AI大模型Cosmos，推动具身智能发展

财经聚焦 2025-01-08 16:10:57 来源：科创板日报作者：网络

AI导读：

英伟达CEO黄仁勋在CES大会上发布物理AI大模型Cosmos，旨在普及物理AI，推动机器人和自动驾驶汽车开发。该模型允许开发者结合多元输入生成基于物理学的视频，预测现实环境。目前，世界基础模型仍处于初级阶段，但已有多个公司推出相关产品。

被全球科技巨头如谷歌、OpenAI、微软等一致看好的具身智能领域，正迅速迈向其标志性的ChatGPT时刻。

近期，英伟达CEO黄仁勋在CES大会上震撼发布了物理AI大模型Cosmos。该模型允许开发者结合文本、图像、视频等多元输入，以及机器人传感器或运动数据，生成基于物理学的视频，进而预测现实环境（涵盖仓库、工厂、交通路况等），并据此对机器人和自动驾驶汽车进行有效训练。

物理AI大模型，作为世界基础模型的核心，能够深入理解世界语言、物理特性和空间位置等关键要素，并据此合成相关物理数据。它是加速智能汽车、具身智能等AI终端广泛应用的关键驱动力。然而，相较于ChatGPT等大语言模型的迅猛发展，世界模型目前仍处于初级阶段，面临开发成本高昂及难以持续遵循物理规则等挑战。

值得关注的是，英伟达此次发布的Cosmos将以开源形式推出，首批用户涵盖了1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi以及小鹏汽车等国内外知名的机器人和汽车制造厂商。

实际上，英伟达早在2024年6月就尝试利用逼真的物理环境对机器人进行训练，当时其推出的仿真框架RoboCasa提供了超过150个类别的数千个3D模型和多种可交互的家具家电，相关实验成功验证了合成物理数据在机器人训练中的实际效用。

黄仁勋强调：“世界基础模型是推动机器人和自动驾驶汽车开发的重要基石，但并非所有开发者都具备自主训练模型所需的专业知识和资源。我们打造Cosmos旨在普及物理AI，使每位开发者都能掌握通用机器人技术。”

迄今为止，已有多个公司推出了世界基础模型。例如，谷歌在2024年12月5日发布了大型基础世界模型Genie2，能够生成高度逼真的3D世界；同年9月，1XTechnologies发布了人形机器人世界模型，能够模拟机器人在不同动作下的未来场景。

此外，视频生成模型也被视为通往世界基础模型的一条重要途径。在视频生成领域，Sora、Runway等企业均表达了进军世界模型的意愿。开源证券指出，视频生成和世界模型在多个方面存在相似之处，它们都将复杂外部世界的数据进行编码、压缩和抽象，转化为低维度的向量，并利用Transformer或其他模型在时空维度上学习这些知识，从而实现预测。

华泰证券的最新研报指出，受文本大模型的启发，人形机器人领域也开始构建具身大模型，首要任务是解决数据问题。自动驾驶可以简化为3D空间中的2D运动，而机器人则是3D空间中的3D运动，还需包含力触觉等信息，因此理论上机器人所需的数据量远超自动驾驶。目前，人形机器人训练数据的收集主要依靠以下三种方式：

采集真机数据，如人穿戴动作捕捉服，虽然数据质量高，但采集成本高且速度慢；
利用仿真环境生成合成数据，对机器人进行训练；
根据现有的互联网视频捕捉动作数据，虽无需构建仿真物理引擎，但涉及复杂的坐标转换，且缺少力触觉等信息维度。

华泰证券认为，在上述三种方式中，合成数据将极大推动机器人的发展。学界已经验证了这种方式的可行性，机器人大脑正迎来其ChatGPT时刻。

（文章来源：科创板日报，图片来源于网络）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。