AI导读:

3月10日,智元发布首个通用具身基座大模型GO-1,开创性提出ViLLA架构,大幅降低具身智能门槛。GO-1相比已有最优模型,平均成功率提高32%,标志具身智能向通用化、开放化、智能化迈进,将加速普及并在多领域发挥作用。

3月11日,国泰君安发布了对机器人行业的最新事件点评。智元科技于3月10日隆重发布了首个通用具身基座大模型GO-1,该模型创新性地提出了VisionLanguage-Latent-Action(ViLLA)架构。ViLLA架构融合了VLM(多模态大模型)与MoE(混合专家),其中VLM借助海量互联网图文数据,获得了强大的通用场景感知和语言理解能力。而MoE中的Latent Planner(隐式规划器)和Action Expert(动作专家)则分别通过大量跨本体和人类操作视频数据及百万真机数据,实现了通用的动作理解和精细的动作执行能力。这三者的紧密结合,使得GO-1能够利用人类视频学习,完成小样本快速泛化,从而大幅降低了具身智能的门槛。

GO-1实现了从VLA到ViLLA的进化,智元科技通过有效利用高质量的AgiBotWorld数据集以及互联网大规模异构视频数据,进一步增强了策略的泛化能力。在推理过程中,VLM、Latent Planner和Action Expert三者协同工作,其中LAM(隐式动作模型)负责获取当前帧和历史帧之间Latent Actions的真值,为整个系统提供了关键的信息支持。实验结果显示,GO-1相比已有的最优模型,在成功率上大幅领先,平均成功率提高了32%(从46%提升至78%)。

GO-1的推出,标志着具身智能技术正加速向通用化、开放化、智能化迈进。这一大模型能够泛化应用到各种环境和物品中,快速适应新任务、学习新技能。同时,GO-1还支持部署到不同的机器人本体上,高效地完成落地应用,并在实际使用中持续不断地快速进化。从单一任务到多种任务、从封闭环境到开放世界、从预设程序到指令泛化,GO-1正引领具身智能技术迈向更加通用全能的智能未来,在商业、工业、家庭等多领域展现出巨大的应用潜力。

(文章来源:财中社)