AI导读:

AI扩展正逼近极限,面临能源消耗和数据短缺双重挑战。数据所有者收紧访问权限,开发人员探索非公开数据和专业数据集等新解决方案。同时,小型语言模型成为新趋势,合成数据、多次读取和自我反思等因素或推动AI技术进一步飞跃。

近年来,人工智能(AI)的飞速发展得益于神经网络规模的扩大及海量数据的训练,大型语言模型(LLM)的构建尤为显著,ChatGPT便是其中的佼佼者。然而,随着AI技术的不断扩张,其正面临前所未有的挑战。

多家权威杂志如《自然》、《麻省理工科技评论》指出,AI的扩展已逼近极限。一方面,AI的能源消耗急剧增加;另一方面,传统数据集被LLM开发人员过度使用,训练数据的瓶颈逐渐显现。有研究机构预测,到2028年,AI训练数据集可能达到公共在线文本总量的规模,数据短缺问题愈发严峻。

同时,数据所有者开始加强内容保护,打击滥用行为,进一步收紧了数据访问权限。内容供应商越来越多地加入软件代码或修改条款,阻止爬虫及AI抓取其数据。据估计,被明确标记为限制爬虫访问的内容数量,已从2023年的不足3%猛增到2024年的20%至33%之间。围绕AI训练中数据使用的合法性,多起诉讼正在进行,这可能导致AI开发人员获取所需数据更加困难。

面对数据匮乏的挑战,AI开发人员正在探索新的解决方案。一方面,他们试图收集非公开数据,如社交媒体消息或视频文字记录,但合法性问题尚存争议。另一方面,一些公司选择使用自己的数据训练AI模型,但各公司政策不同,效果也不尽相同。此外,专注于快速增长的专业数据集,如天文学或基因组学数据,可能成为新的数据来源,但其对LLM的可用性和实用性尚待验证。

同时,制造数据也成为解决之道。AI公司付费让人们生成训练内容,或使用AI生成的合成数据来训练AI,这已成为一个潜在的巨大数据源。然而,合成数据也存在问题,如递归循环可能巩固错误、放大误解,并降低学习质量。

在探索新数据源的同时,一些开发者开始转变思路,摒弃“越大越好”的模型开发观念,追求更高效、专注于单一任务的小型语言模型。这些模型需要更精细、更专业的数据以及更好的训练技术。例如,OpenAI发布了新的o1模型,采用新方法在强化学习上投入更多时间,让模型对每个回答进行更深入的思考,实现了从依赖大规模数据集进行预训练到更注重训练和推理的转变。

此外,美国斯坦福大学的研究表明,模型从多次读取给定数据集中学到的内容与从相同数量的唯一数据中学习到的内容一样丰富。这意味着,LLM可能已饱览互联网大部分内容,无需更多数据即可变得更智能。合成数据、专门数据集、多次读取和自我反思等因素的结合,或将共同推动AI技术的进一步飞跃。

(文章来源:科技日报)