AI导读:

AI大模型对数据的需求呈现出爆炸式增长,但高质量数据正面临枯竭的困境。业界通过挖掘现有数据潜力、利用合成数据、建立数据共享平台等方式积极寻找解决之道,以突破数据瓶颈。

在人工智能技术日新月异的今天,AI大模型对数据的需求呈现出爆炸式增长。然而,一个不容忽视的问题是,可用于训练AI模型的高质量数据正面临枯竭的困境。Epoch AI的最新研究报告预测,到2028年,AI训练数据集将接近公共在线文本总量的极限。《自然》杂志亦发出警告,AI革命正逐步“吸干”互联网的数据资源。

《中国经营报》记者通过采访发现,尽管算力的大幅提升使得AI大模型能够处理更为庞大的数据集,但高质量、符合特定应用场景的数据供应却未能同步增长。这并非意味着数据完全消失,而是指符合AI模型需求的高质量数据变得愈发稀缺。同时,随着模型规模的扩大,增加额外数据所带来的效益逐渐递减,对数据的要求也愈发苛刻。

以GPT-4为例,其参数量高达万亿级别,对数据的渴求可想而知。AI大模型的数据来源主要包括互联网公开数据、企业内部数据和第三方数据提供商提供的数据。然而,互联网上高质量的数据资源有限,无法满足AI大模型的巨大需求。社交媒体上的虚假信息、冗余内容以及偏见言论等,都严重影响了数据的质量。

OpenAI原科学家苏茨克维尔曾指出,数据的增长正在放缓,这一推动AI发展的“化石燃料”正逐渐枯竭。一位智算中心的工作人员也表示,互联网数据并未真正枯竭,但高质量的数据已经见顶。低质量的数据不仅无法为模型提供有效的训练素材,还可能对模型产生误导,导致性能下降。

八友科技创始人、CEO梁斌透露,2023年市场上大模型的客户都在拼命购买数据,但到了2024年,客户开始只购买有着严格标准的数据。高质量数据的重要性正在日益增加,但获取的难度也越来越大。数据所有者对数据的使用规则越来越严格,隐私与安全法规的限制也愈发严格。

工信部信息通信经济专家委员会委员、DCCI互联网研究院院长刘兴亮分析称,隐私与安全法规是限制数据获取的主要原因之一。全球范围内对数据隐私和安全的关注度持续提升,如《欧盟通用数据保护条例(GDPR)》和《数据安全法》等法律法规限制了数据的采集、存储和使用。此外,高质量数据获取的成本高昂,使得企业难以承受。

业内普遍认为,GPT-5久久未能发布,正是因为数据瓶颈显现。然而,OpenAI、谷歌等头部公司依然对AI的前景感到乐观,认为通过开发新型数据源、增加模型推理能力以及应用合成数据等方法,AI模型将继续保持进步。

面对数据枯竭的困境,企业开始积极寻找解决之道。通过挖掘现有数据的潜力、利用合成数据、建立数据共享平台、加强数据治理以及探索新的数据来源等多方面的努力,以突破数据瓶颈。OpenAI成立了一个基础团队,探索如何应对训练数据的匮乏,保持模型改进的稳定性。

在数据资源有限的情况下,促进不同机构、不同行业之间的数据共享与合作成为解决数据荒的有效途径。通过数据共享平台,企业、研究机构等可以将自己的数据资源进行整合和共享,实现数据的互联互通。知名经济学者、工信部信息通信经济专家委员会委员盘和林建议,AI企业与互联网平台企业合作,共同打造AI大模型。

中国科学院院士梅宏表示,需要构建一套以数据为中心的新型基础设施,从根本上支撑数据在互联网上的互联互通。刘兴亮则认为,“数据荒”更像是数据获取和使用效率的问题,而非绝对的数据匮乏。未来,人工智能行业需要在数据获取效率、技术突破和法规遵循之间找到平衡点。