英伟达发布物理AI大模型Cosmos,推动具身智能发展
AI导读:
英伟达CEO黄仁勋在CES大会上发布物理AI大模型Cosmos,旨在普及物理AI,推动机器人和自动驾驶汽车开发。该模型允许开发者结合多元输入生成基于物理学的视频,预测现实环境。目前,世界基础模型仍处于初级阶段,但已有多个公司推出相关产品。
被全球科技巨头如谷歌、OpenAI、微软等一致看好的具身智能领域,正迅速迈向其标志性的ChatGPT时刻。
近期,英伟达CEO黄仁勋在CES大会上震撼发布了物理AI大模型Cosmos。该模型允许开发者结合文本、图像、视频等多元输入,以及机器人传感器或运动数据,生成基于物理学的视频,进而预测现实环境(涵盖仓库、工厂、交通路况等),并据此对机器人和自动驾驶汽车进行有效训练。
物理AI大模型,作为世界基础模型的核心,能够深入理解世界语言、物理特性和空间位置等关键要素,并据此合成相关物理数据。它是加速智能汽车、具身智能等AI终端广泛应用的关键驱动力。然而,相较于ChatGPT等大语言模型的迅猛发展,世界模型目前仍处于初级阶段,面临开发成本高昂及难以持续遵循物理规则等挑战。
值得关注的是,英伟达此次发布的Cosmos将以开源形式推出,首批用户涵盖了1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi以及小鹏汽车等国内外知名的机器人和汽车制造厂商。
实际上,英伟达早在2024年6月就尝试利用逼真的物理环境对机器人进行训练,当时其推出的仿真框架RoboCasa提供了超过150个类别的数千个3D模型和多种可交互的家具家电,相关实验成功验证了合成物理数据在机器人训练中的实际效用。
黄仁勋强调:“世界基础模型是推动机器人和自动驾驶汽车开发的重要基石,但并非所有开发者都具备自主训练模型所需的专业知识和资源。我们打造Cosmos旨在普及物理AI,使每位开发者都能掌握通用机器人技术。”
迄今为止,已有多个公司推出了世界基础模型。例如,谷歌在2024年12月5日发布了大型基础世界模型Genie2,能够生成高度逼真的3D世界;同年9月,1XTechnologies发布了人形机器人世界模型,能够模拟机器人在不同动作下的未来场景。
此外,视频生成模型也被视为通往世界基础模型的一条重要途径。在视频生成领域,Sora、Runway等企业均表达了进军世界模型的意愿。开源证券指出,视频生成和世界模型在多个方面存在相似之处,它们都将复杂外部世界的数据进行编码、压缩和抽象,转化为低维度的向量,并利用Transformer或其他模型在时空维度上学习这些知识,从而实现预测。
华泰证券的最新研报指出,受文本大模型的启发,人形机器人领域也开始构建具身大模型,首要任务是解决数据问题。自动驾驶可以简化为3D空间中的2D运动,而机器人则是3D空间中的3D运动,还需包含力触觉等信息,因此理论上机器人所需的数据量远超自动驾驶。目前,人形机器人训练数据的收集主要依靠以下三种方式:
- 采集真机数据,如人穿戴动作捕捉服,虽然数据质量高,但采集成本高且速度慢;
- 利用仿真环境生成合成数据,对机器人进行训练;
- 根据现有的互联网视频捕捉动作数据,虽无需构建仿真物理引擎,但涉及复杂的坐标转换,且缺少力触觉等信息维度。
华泰证券认为,在上述三种方式中,合成数据将极大推动机器人的发展。学界已经验证了这种方式的可行性,机器人大脑正迎来其ChatGPT时刻。
(文章来源:科创板日报,图片来源于网络)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。