AI导读:

AI扩展逼近极限,训练数据即将遭遇瓶颈,开发人员需寻找变通之道。新方法包括收集非公开数据、使用专业数据集、制造数据以及追求更高效的小型语言模型等,共同推动AI进一步飞跃。

近年来,人工智能(AI)的迅猛发展主要得益于神经网络规模的扩大以及海量数据的训练,大型语言模型(LLM)的构建尤为显著,ChatGPT便是其中的佼佼者。然而,AI的扩展正面临极限挑战。《自然》与《麻省理工科技评论》等权威杂志指出,AI正消耗越来越多的能源,同时,传统数据集被LLM开发人员过度开采,训练数据的瓶颈已悄然显现。

据研究机构预测,到2028年,用于训练AI模型的数据集规模或将达到公共在线文本总量的水平,AI或将在4年内耗尽训练数据。此外,数据所有者如报纸出版商等开始打击内容滥用行为,进一步收紧了数据访问权限,这将加剧“数据共享”危机。开发人员需积极寻求变通之道。

过去十年,LLM的发展对数据需求巨大。自2020年以来,用于训练LLM的“标记”(或单词)数量已从数百亿增至数万亿,如RedPajama等大型数据集被广泛应用。然而,互联网内容的增长速度远低于AI训练数据集的增长速度,预计两者将在2028年交汇。同时,越来越多的内容供应商通过加入软件代码或修改条款等方式,阻止爬虫及AI抓取数据,限制爬虫访问的内容比例从2023年的不足3%猛增至2024年的20%至33%之间。

围绕AI训练中数据使用的合法性,多起诉讼正在进行。例如,《纽约时报》向OpenAI及其合作伙伴微软提起诉讼,指控其侵犯版权;纽约市Alden全球资本旗下的8家报纸也联合发起了类似诉讼。若法院最终支持内容提供商获得经济赔偿,AI开发人员尤其是资金紧张的学者获取所需数据将更加困难。

为应对数据匮乏的挑战,开发人员正探索新方法。收集非公开数据如社交媒体消息或视频文字记录虽是一个途径,但其合法性尚存争议。一些公司选择使用自己的数据训练AI模型,但各公司政策不同。专注于快速增长的专业数据集如天文学或基因组学数据也是一个选择,但其对训练LLM的可用性和实用性尚待验证。如果AI能接受除文本之外的多种类型数据训练,可能会为丰富数据的涌入打开新的闸门。

制造数据也是解决之道。一些AI公司付费让人们生成训练内容,或使用AI生成的合成数据来训练AI。然而,合成数据也存在问题,如递归循环可能巩固错误、放大误解,并降低学习质量。因此,开发人员需谨慎选择和使用。

另一种策略是摒弃“越大越好”的开发观念,追求更高效、专注于单一任务的小型语言模型。这些模型需要更精细、更专业的数据以及更好的训练技术。OpenAI发布的o1模型便采用了新方法,在强化学习上投入更多时间,让模型对每个回答进行更深入的思考。这表明,从依赖大规模数据集进行预训练转向更注重训练和推理,或许能让AI变得更智能。

斯坦福大学的研究表明,模型从多次读取给定数据集中学到的内容与从相同数量的唯一数据中学习到的内容一样丰富。因此,合成数据、专门数据集、多次读取和自我反思等因素的结合,或将共同推动AI的进一步飞跃。

(文章来源:科技日报,图片来源于网络)