智元机器人发布中国首个通用具身基座模型GO-1
AI导读:
3月10日,智元机器人发布中国首个通用具身基座模型GO-1,具备泛化能力,降低使用门槛和后训练成本。GO-1采用ViLLA架构,结合多模态大模型和混合专家,实现动作理解和执行能力。通过数据回流系统,GO-1能从实际执行中持续学习进化。
3月10日,上海机器人初创公司智元机器人正式发布中国首个通用具身基座模型——智元启元大模型GenieOperator-1(GO-1)。该模型具备强大的泛化能力,能在极少数据甚至零样本环境下快速适应新场景、新任务,显著降低了具身模型的使用门槛和后训练成本。
GO-1模型开创性地提出了Vision-Language-Latent-Action(ViLLA)架构,该架构结合了VLM(多模态大模型)与MoE(混合专家),通过VLM的海量互联网图文数据获得通用场景感知和语言理解能力,同时MoE中的Latent Planner(隐式规划器)和Action Expert(动作专家)分别借助跨本体和人类操作数据及百万真机数据,实现动作理解和精细执行能力。三者在推理时协同工作,目前该模型已成功应用于智元多款机器人。
为解决具身智能数据困境,智元机器人采用Latent Actions(隐式动作)建模技术,通过Latent Planner预测隐式动作,将异构数据源中的真实世界动作知识转移到通用操作任务中。尽管智元机器人此前发布的AgiBot World百万真机数据集已是最大规模,但高质量带动作标签的真机数据仍有限。
据智元机器人介绍,在五种不同复杂度任务测试中,GO-1大模型相比已有最优模型,平均成功率提高了32%,尤其在“倒水”、“清理桌面”和“补充饮料”等任务中表现卓越。此外,GO-1还能搭配智元的数据回流系统,从实际执行中遇到的问题数据中持续学习进化,实现“越用越聪明”。
(文章来源:澎湃新闻)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。