AI导读:

网络上流传的大模型生成的“异次元篇章”反映出数据质量是大模型应用成败的关键。数据质量不高会放大偏差和谬误,增加开发和维护成本,降低用户信任度。提升大模型性能需平衡数据的“质”与“量”,加强数据治理。

  前段时间,网络上流传着一些由大模型生成的“异次元篇章”。比如,有人让大模型续写《红楼梦》情节时,竟出现“贾宝玉倒拔垂杨柳”的离奇场景,让人哭笑不得。之所以会出现这种“混搭”和“幻觉”,源于大模型在学习原著的同时,还“吸纳”了不少错误信息。

  这些人工智能(AI)生成的“无稽之谈”虽成为网友们茶余饭后的谈资,但背后折射出的问题不容忽视:数据质量是决定大模型应用成败的关键。以个性化推荐AI系统为例,一些企业在开发时,尽管收集了大量用户行为数据,但数据中存在大量错误标注、重复数据及矛盾信息,数据量虽增,推荐准确性却未明显提升。《自然》杂志刊登的一篇大模型可靠性研究文章指出,西班牙一研究团队发现,包括OpenAI公司的GPT在内的多个大模型升级后,参数量增加,误答情况却更严重。因此,大模型的“健壮”不仅取决于“食量”(即数据量),更在于食物的“质量”(即数据质量)——量多不等于质优。

  数据是大模型的基石,数据质量不高、可靠性缺失时,一味追求大模型参数量的增加,不仅无法提升性能,反而会放大偏差和谬误,产生更多不可信数据。这不仅浪费计算与存储资源,增加开发和维护成本,降低用户信任度,更可能在精确性要求极高的工业生产领域引发不可预测的风险和隐患。以油气勘探为例,基于大模型的错误预测进行开采,可能导致数亿元资金损失,并对自然环境造成不可逆破坏。

  提升大模型性能的关键在于平衡数据的“质”与“量”,构建大规模、高质量的数据集。应建立完善的数据收集、清洗、验证和存储机制,强化数据质量监控和评估,确保数据的准确性、完整性和一致性。同时,加强跨领域合作,引入数据科学家、AI算法工程师等多方力量,开展大模型算法合作,制定数据共享和隐私安全保密协议,推动大模型产学研用生态建设。

  当前,大模型发展已进入多模态融合阶段。通过加强数据治理,优化人工智能学习、训练和验证的“基础食材”,提供大规模、高质量、多模态数据集的“盛宴”,必将助力大模型能力提升,让人工智能更好地服务于各行各业,造福人类社会。

(文章来源:科技日报)