AI导读:

2025全球开发者先锋大会论坛上,语料成为焦点。随着AI模型快速迭代,真实世界语料面临枯竭,业界主流趋势是使用合成数据。但合成数据发展尚不成熟,真实语料的重要性更加凸显。为提高语料供给水平,上海正在采取行动,引领AI产业创新发展。

  漕河泾会议中心,座无虚席。2月22日,2025全球开发者先锋大会召开首日,一场以语料为主题的论坛吸引了众多开发者和创业者的围观,甚至连通道上都站满了认真聆听的观众。论坛承办方上海库帕思科技有限公司董事长山栋明说:“一开始觉得这个场地大才选了这里,但大家的热情超出了我们的想象。”

  语料为何备受瞩目?它是构建和训练AI模型,特别是自然语言处理模型的关键语言素材。这些素材可以是传统文字,也可以是语音、图像和视频等多种数据类型。语料的质量,将直接影响AI模型的性能。

  在本次大会上,语料被视为AI时代的重要资产。因此,无论是基础模型开发者还是AI应用创业者,都极为关注语料的发展。然而,随着AI模型的快速迭代,真实世界的语料正面临枯竭。蜜度科技CTO刘益东指出,由于算法和算力的不断优化,对语料的需求量正急剧增加,使得语料变得越来越稀缺。

  曾有人质疑算法创新能否减少语料需求。例如,Deepseek通过模型算法创新和强化学习,减少了对标注数据的使用,被视为革命性进展。但论坛上,业内人士表示,算法优化降低了模型搭建成本,将吸引更多AI开发者进入赛道,语料总体需求量仍会增加,这被称为“杰文斯悖论”。

  山栋明指出:“算法大规模创新后,未来大模型可能陷入‘算法谄媚’状态,即算法成本降低,数据价值提升。因此,未来语料的配置至关重要。”

  为解决语料枯竭问题,业界主流趋势是使用“合成数据”。这是一种通过AI模型利用真实语料生成的仿真数据,可用于AI模型训练。马斯克的xAI发布的Grok-3就是在大量合成数据基础上训练而成的。上海交通大学副教授刘鹏飞认为,合成数据是下一代大模型训练的核心。

  但需注意,合成数据发展尚不成熟,面临真实性不稳定、评价体系不一等问题,可能加剧AI模型的‘幻觉’问题。Google DeepMind实验显示,当代码生成模型仅使用自身合成数据迭代训练时,代码安全漏洞率从初代的12%飙升至第五代的67%。

  因此,真实语料作为合成数据的基础,其重要性更加凸显。要提升语料质量,需提升语料来源、收集、处理等全环节的质量。但这一过程面临诸多现实困难。一位医疗AI创业者在论坛上表示,其公司发布的医疗垂类模型,最初收集了30多TB的医院系统数据,但最终能用于模型的语料不到1TB。

  为提高语料供给水平,赋能AI大模型创新发展,上海正在采取行动。论坛上,模塑申城语料普惠计划、语料数据智能创意大赛、2025语料风云榜招募令、具身智能语料专项工程、语料工作委员会的四项工作已正式启动。未来,上海将汇聚更多高质量语料库,以完善的语料服务生态,吸引更多AI产业落地。

(文章来源:上观新闻)

SEO关键词植入:AI模型训练, 语料枯竭, 合成数据, AI发展上海行动