AI导读:

具身智能与人形机器人领域快速发展,但高质量训练数据的匮乏成为关键瓶颈。行业积极探索解决方案,包括开源真机数据集、探索数据合成与泛化、建设数据采集训练场等,以期加速技术创新和商业落地。

过去一年,具身智能与人形机器人领域备受瞩目,但行业在快速发展之际也遭遇了严峻挑战,尤其是高质量训练数据的匮乏成为制约其进一步发展的关键瓶颈。上海机器人初创企业智元机器人近日开源了百万真机数据集AgiBot World,此举旨在缓解数据短缺问题,推动基于真实数据的具身智能算法训练和技术创新。然而,业内人士指出,尽管这一数据集意义重大,但对于实现理想状态的具身智能而言,百万条数据仍显不足,仅能支持单一动作的泛化训练,如分拣等。

智元机器人联合创始人彭志辉(网名“稚晖君”)强调,真机数据的采集成本高、门槛高,此次开源是希望促进科研团队利用真实数据进行算法训练。此外,数据的标准化问题同样亟待解决。具身智能的训练需要来自物理世界的交互数据,而这类数据的获取远比语言大模型训练所需的数据更为复杂和昂贵。

银河通用创始人兼CTO王鹤指出,通用机器人的发展依赖于数据驱动的具身大模型,以实现高泛化性和跨行业应用能力。然而,现有数据量远不足以支撑这一愿景。国家地方共建人形机器人创新中心的相关负责人也表示,行业内对于机器人泛化数据的获取是一大难题,目前特斯拉的Optimus等机器人仍需人为远程操作,尚不具备完全自主完成任务的能力。

北航机器人研究所名誉所长王田苗同样提到了数据匮乏对机器人泛化能力的影响,包括任务泛化、感知泛化和运动操作泛化等数据的难以获取。王鹤团队则从2023年开始探索大规模灵巧手数据合成和泛化,2024年已合成10亿规模的数据体量用于训练。

深圳创业公司艾欧智能联合创始人徐良威表示,行业共识认为只有通过海量数据训练才能实现真正的具身智能,仿真数据的效果远不及真实数据。然而,目前具身智能领域正处于类似GPT技术发展的过渡阶段,基础物理世界的数据仍十分匮乏。

在数据采集方面,行业已发展出遥操作机器人数据、仿真合成数据、人类动作捕捉数据和互联网获取视频或图像数据等四种方式。其中,遥操作方式获取的数据质量最高,但成本极其昂贵,一台遥操设备投入约35万元,加上人工数据采集成本,每人每天至少需要300元,且采集效率低。仿真合成数据成本低,但与真实世界存在差距。人类动作捕捉数据质量较高,但与机器人的适配性需进一步处理。互联网获取的数据量虽大,但质量差,多为单一模态、非结构化且无标注的二维图像或视频。

此外,行业内还面临缺乏统一数据集定义和处理标准的问题,导致不同公司之间的数据难以共享和有效利用。不过,近期国家地方共建具身智能机器人创新中心牵头立项的《人工智能具身智能数据采集规范》工信部行业标准,为行业数据的统一和共享提供了积极信号。

展望未来,随着世界模型等新技术的发展,以及数据采集训练场的加快建设,预计2025年将出现更多高效、多样化的数据采集方式,有助于降低采集成本,加速具身智能技术的商业落地。北京、上海等地相继表示要共建创新数据采集基地和搭建实训、模拟应用场景,这将有助于集中资源、缩短数据积累时间,从而加快具身智能市场准入。

国家地方共建人形机器人创新中心具身智能数据看板。

数据训练员穿上特制的动作捕捉服装训练人形机器人捕捉数据。