AI导读:

在AI淘金热中,数据成为驱动AI产业链的燃料。杭州曼孚科技CEO赵剑表示,随着AI发展,数据应用场景不断拓展,多模态数据标注需求激增。同时,全球科技巨头加速布局AI数据中心,数据处理、筛选及管理成为关键。

  在AI淘金热中,有人手握铁锹和镐,不断“开垦”海量数据,为AI企业提供宝贵的资源。

  3月27日,博鳌亚洲论坛2025年年会上,杭州曼孚科技有限公司CEO赵剑在第一财经专访中表示,随着AI技术不断进步,企业对数据的需求日益多样化,数据应用场景持续拓展,数据行业正迎来新的变革。

  数据如同驱动AI产业链的燃料。随着信息智能向空间智能、具身智能迈进,企业对数据的认知和需求将发生深刻变化。赵剑透露,曼孚科技正转向大模型多模态数据标注。他解释,随着大语言模型(LLM)向多模态发展,文本、图像、语音、视频等数据的融合标注需求激增,多模态数据标注成为AI发展的必经之路。

  面对多模态数据标注的成本挑战,赵剑坦言,由于处理维度的提升,数据成本也随之攀升。以自动驾驶为例,智驾汽车的传感器涵盖激光雷达、摄像头、毫米波雷达等多源信息,收集、清洗、标注这些数据的工作量巨大。

  在复杂的数据处理场景中,赵剑认为,利用AI和自动化流程提升数据处理效率是解决方案。在标注层面,AI辅助技术可识别图像中的车辆、行人,并预标注关键点;在自动化流程中,建立工业化标准,实现流水线式的数据清洗和标注。然而,赵剑也强调,AI标注的局限性不容忽视,“在AI尚不成熟的情况下,AI自动标注也难以尽善尽美”。

  曼孚的客户结构中,自动驾驶企业仍是主要客户来源。赵剑解释,自动驾驶商业化成熟度较高,车企愿意为数据付费,且需求明确,行业已形成从数据采集到模型落地的完整闭环。

  相比之下,服务机器人、人形机器人等领域的客户较少。赵剑指出,机器人是软硬件协同的智能体,公司对硬件适配的数据及业务场景定义不明确,影响数据质量和规模。在机器人行业,数据通用性低,若公司未明确需求即购买数据,效率将大打折扣。

  赵剑认为,自动驾驶技术路线中,强化学习与端到端模型的探索正在加速。但自动驾驶算法的“黑箱”特性带来法律风险,事故责任界定仍是难题,需技术、法规、伦理层面共同突破。

  全球科技巨头在人工智能领域的布局持续升温,微软、Meta、OpenAI等科技公司均计划投资建设AI数据中心。微软宣布将在2025财年投资800亿美元用于建设AI数据中心,Meta计划投资650亿美元扩展人工智能基础设施,OpenAI则宣布立即投入1000亿美元在美国建设数据中心。

  面对科技巨头在AI数据中心建设上的巨额投入,赵剑表示,数据处理、筛选及管理更为关键。“行业在数据处理等环节的实际投入不足。”他指出,当前行业仍处于发展初期,数据标注在处理效率和速度方面仍有待提升,未来具有巨大发展潜力。

(文章来源:第一财经)