AI导读:

英伟达创始人黄仁勋在半导体大会上提出,具身智能将是人工智能的下一个浪潮。同时介绍了英伟达的多模态具身智能系统Nvidia VIMA。谷歌发布的PaLM-E模型更是将这一趋势推向高潮。政策端也开始关注具身人工智能。

AI发展的下一站在何方?英伟达创始人兼首席执行官黄仁勋在ITF World 2023半导体大会上给出了他的答案:具身智能(embodied AI),即能理解、推理并与物理世界互动的智能系统,将成为人工智能的新浪潮。

黄仁勋不仅揭示了这一趋势,还介绍了英伟达的多模态具身智能系统Nvidia VIMA。该系统在视觉文本提示下,能执行复杂任务、获取概念、理解边界,甚至模拟物理学,这标志着AI能力取得了显著进步。

今年3月,谷歌与柏林工业大学团队发布的PaLM-E更是将这一趋势推向高潮。PaLM-E是一种多模态具身视觉语言模型,被誉为史上最大的“通才”AI模型。它不仅能理解图像,还能生成语言,执行各种复杂的机器人指令,且无需重新训练,展现出强大的迁移能力。

政策端也开始关注具身人工智能。北京市发布的《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》中,明确提出探索具身智能等新路径,推动具身智能系统研究及应用,突破机器人在复杂条件下的感知、认知、决策技术。

那么,何为具身智能?如何实现?具身智能是指智能体通过与环境交互,产生对客观世界的理解和改造能力。一个具身智能机器人需要听懂人类语言,分解任务,规划子任务,识别物体,与环境交互,最终完成任务。实现具身智能需要多个学科的交叉互助,包括机器人学、神经网络、强化学习、机器视觉、计算机图形学、自然语言以及认知科学。

具身智能的概念最早可追溯至1950年图灵的论文。然而,在此后的几十年中,具身智能并未取得显著进展。直到谷歌的PaLM-E模型出现,才在业内引起轰动。PaLM-E无需预先处理的场景和数据注释,只需简单指令,便可实现更为自主的机器人控制,且行动计划具有“弹性”,能对周围环境变化作出反应。

上海交通大学教授卢策吾认为,虽然人工智能能输出表征,但难以检验其是否真正理解相关概念。因此,可以先在可验证、可测量的概念上做出闭环。而具身智能正是这样一个闭环,它可测量、可解释、可检验,可能是迈向通用智能的一个很好的起点。

(文章来源:财联社)