2025全球开发者先锋大会聚焦语料：AI模型训练面临语料枯竭挑战，上海行动引领未来

财经聚焦 2025-02-23 06:50:44 来源：上观新闻作者：网络

AI导读：

2025全球开发者先锋大会论坛上，语料成为焦点。随着AI模型快速迭代，真实世界语料面临枯竭，业界主流趋势是使用合成数据。但合成数据发展尚不成熟，真实语料的重要性更加凸显。为提高语料供给水平，上海正在采取行动，引领AI产业创新发展。

　　漕河泾会议中心，座无虚席。2月22日，2025全球开发者先锋大会召开首日，一场以语料为主题的论坛吸引了众多开发者和创业者的围观，甚至连通道上都站满了认真聆听的观众。论坛承办方上海库帕思科技有限公司董事长山栋明说：“一开始觉得这个场地大才选了这里，但大家的热情超出了我们的想象。”

　　语料为何备受瞩目？它是构建和训练AI模型，特别是自然语言处理模型的关键语言素材。这些素材可以是传统文字，也可以是语音、图像和视频等多种数据类型。语料的质量，将直接影响AI模型的性能。

　　在本次大会上，语料被视为AI时代的重要资产。因此，无论是基础模型开发者还是AI应用创业者，都极为关注语料的发展。然而，随着AI模型的快速迭代，真实世界的语料正面临枯竭。蜜度科技CTO刘益东指出，由于算法和算力的不断优化，对语料的需求量正急剧增加，使得语料变得越来越稀缺。

　　曾有人质疑算法创新能否减少语料需求。例如，Deepseek通过模型算法创新和强化学习，减少了对标注数据的使用，被视为革命性进展。但论坛上，业内人士表示，算法优化降低了模型搭建成本，将吸引更多AI开发者进入赛道，语料总体需求量仍会增加，这被称为“杰文斯悖论”。

　　山栋明指出：“算法大规模创新后，未来大模型可能陷入‘算法谄媚’状态，即算法成本降低，数据价值提升。因此，未来语料的配置至关重要。”

　　为解决语料枯竭问题，业界主流趋势是使用“合成数据”。这是一种通过AI模型利用真实语料生成的仿真数据，可用于AI模型训练。马斯克的xAI发布的Grok-3就是在大量合成数据基础上训练而成的。上海交通大学副教授刘鹏飞认为，合成数据是下一代大模型训练的核心。

　　但需注意，合成数据发展尚不成熟，面临真实性不稳定、评价体系不一等问题，可能加剧AI模型的‘幻觉’问题。Google DeepMind实验显示，当代码生成模型仅使用自身合成数据迭代训练时，代码安全漏洞率从初代的12%飙升至第五代的67%。

　　因此，真实语料作为合成数据的基础，其重要性更加凸显。要提升语料质量，需提升语料来源、收集、处理等全环节的质量。但这一过程面临诸多现实困难。一位医疗AI创业者在论坛上表示，其公司发布的医疗垂类模型，最初收集了30多TB的医院系统数据，但最终能用于模型的语料不到1TB。

　　为提高语料供给水平，赋能AI大模型创新发展，上海正在采取行动。论坛上，模塑申城语料普惠计划、语料数据智能创意大赛、2025语料风云榜招募令、具身智能语料专项工程、语料工作委员会的四项工作已正式启动。未来，上海将汇聚更多高质量语料库，以完善的语料服务生态，吸引更多AI产业落地。

（文章来源：上观新闻）

SEO关键词植入：AI模型训练, 语料枯竭, 合成数据, AI发展上海行动

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。