2025全球开发者先锋大会聚焦语料:AI模型训练面临语料枯竭挑战,上海行动引领未来
AI导读:
2025全球开发者先锋大会论坛上,语料成为焦点。随着AI模型快速迭代,真实世界语料面临枯竭,业界主流趋势是使用合成数据。但合成数据发展尚不成熟,真实语料的重要性更加凸显。为提高语料供给水平,上海正在采取行动,引领AI产业创新发展。
漕河泾会议中心,座无虚席。2月22日,2025全球开发者先锋大会召开首日,一场以语料为主题的论坛吸引了众多开发者和创业者的围观,甚至连通道上都站满了认真聆听的观众。论坛承办方上海库帕思科技有限公司董事长山栋明说:“一开始觉得这个场地大才选了这里,但大家的热情超出了我们的想象。”
语料为何备受瞩目?它是构建和训练AI模型,特别是自然语言处理模型的关键语言素材。这些素材可以是传统文字,也可以是语音、图像和视频等多种数据类型。语料的质量,将直接影响AI模型的性能。
在本次大会上,语料被视为AI时代的重要资产。因此,无论是基础模型开发者还是AI应用创业者,都极为关注语料的发展。然而,随着AI模型的快速迭代,真实世界的语料正面临枯竭。蜜度科技CTO刘益东指出,由于算法和算力的不断优化,对语料的需求量正急剧增加,使得语料变得越来越稀缺。
曾有人质疑算法创新能否减少语料需求。例如,Deepseek通过模型算法创新和强化学习,减少了对标注数据的使用,被视为革命性进展。但论坛上,业内人士表示,算法优化降低了模型搭建成本,将吸引更多AI开发者进入赛道,语料总体需求量仍会增加,这被称为“杰文斯悖论”。
山栋明指出:“算法大规模创新后,未来大模型可能陷入‘算法谄媚’状态,即算法成本降低,数据价值提升。因此,未来语料的配置至关重要。”
为解决语料枯竭问题,业界主流趋势是使用“合成数据”。这是一种通过AI模型利用真实语料生成的仿真数据,可用于AI模型训练。马斯克的xAI发布的Grok-3就是在大量合成数据基础上训练而成的。上海交通大学副教授刘鹏飞认为,合成数据是下一代大模型训练的核心。
但需注意,合成数据发展尚不成熟,面临真实性不稳定、评价体系不一等问题,可能加剧AI模型的‘幻觉’问题。Google DeepMind实验显示,当代码生成模型仅使用自身合成数据迭代训练时,代码安全漏洞率从初代的12%飙升至第五代的67%。
因此,真实语料作为合成数据的基础,其重要性更加凸显。要提升语料质量,需提升语料来源、收集、处理等全环节的质量。但这一过程面临诸多现实困难。一位医疗AI创业者在论坛上表示,其公司发布的医疗垂类模型,最初收集了30多TB的医院系统数据,但最终能用于模型的语料不到1TB。
为提高语料供给水平,赋能AI大模型创新发展,上海正在采取行动。论坛上,模塑申城语料普惠计划、语料数据智能创意大赛、2025语料风云榜招募令、具身智能语料专项工程、语料工作委员会的四项工作已正式启动。未来,上海将汇聚更多高质量语料库,以完善的语料服务生态,吸引更多AI产业落地。
(文章来源:上观新闻)
SEO关键词植入:AI模型训练, 语料枯竭, 合成数据, AI发展上海行动
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。