AI导读:

3月10日,智元机器人发布中国首个通用具身基座模型GO-1,具备泛化能力,降低使用门槛和后训练成本。GO-1采用ViLLA架构,结合多模态大模型和混合专家,实现动作理解和执行能力。通过数据回流系统,GO-1能从实际执行中持续学习进化。

3月10日,上海机器人初创公司智元机器人正式发布中国首个通用具身基座模型——智元启元大模型GenieOperator-1(GO-1)。该模型具备强大的泛化能力,能在极少数据甚至零样本环境下快速适应新场景、新任务,显著降低了具身模型的使用门槛和后训练成本。

GO-1模型开创性地提出了Vision-Language-Latent-Action(ViLLA)架构,该架构结合了VLM(多模态大模型)与MoE(混合专家),通过VLM的海量互联网图文数据获得通用场景感知和语言理解能力,同时MoE中的Latent Planner(隐式规划器)和Action Expert(动作专家)分别借助跨本体和人类操作数据及百万真机数据,实现动作理解和精细执行能力。三者在推理时协同工作,目前该模型已成功应用于智元多款机器人。

为解决具身智能数据困境,智元机器人采用Latent Actions(隐式动作)建模技术,通过Latent Planner预测隐式动作,将异构数据源中的真实世界动作知识转移到通用操作任务中。尽管智元机器人此前发布的AgiBot World百万真机数据集已是最大规模,但高质量带动作标签的真机数据仍有限。

据智元机器人介绍,在五种不同复杂度任务测试中,GO-1大模型相比已有最优模型,平均成功率提高了32%,尤其在“倒水”、“清理桌面”和“补充饮料”等任务中表现卓越。此外,GO-1还能搭配智元的数据回流系统,从实际执行中遇到的问题数据中持续学习进化,实现“越用越聪明”。

(文章来源:澎湃新闻)