AI导读:

3月10日,智元发布了首个通用具身基座模型——智元启元大模型(Genie Operator-1),融合了VLM与MoE技术,具备卓越的场景感知、语言理解和动作执行能力,降低了具身智能门槛,为机器人产业智能化发展注入新活力。

3月10日,智元发布了首个通用具身基座模型——智元启元大模型(Genie Operator-1),这标志着AI技术在机器人领域的又一重大突破。该模型创新性地提出了Vision-Language-Latent-Action (ViLLA) 架构,该架构融合了VLM(多模态大模型)与MoE(混合专家)技术。VLM通过海量互联网图文数据的训练,获得了卓越的通用场景感知和语言理解能力。而MoE中的Latent Planner(隐式规划器)则利用大量跨本体和人类操作视频数据,实现了通用的动作理解能力。同时,MoE中的Action Expert(动作专家)借助百万真机数据的训练,具备了精细的动作执行能力。这一创新使得智元启元大模型能够利用人类视频进行学习,完成小样本的快速泛化,极大地降低了具身智能的门槛,并已成功部署到智元的多款机器人本体上。

此次智元启元大模型的发布,不仅展示了智元在AI技术研发上的深厚实力,也为机器人产业的智能化发展注入了新的活力。随着该模型的应用推广,我们有理由相信,未来的机器人将更加智能、更加灵活,为人们的生活带来更多便利。(文章来源:界面新闻)