AI导读:

上海AI实验室发布“万卷·丝路”多语言预训练语料库,涵盖泰、俄、阿、韩、越等五语种,总规模超1.2TB,助力人工智能技术在多语言环境下的应用与发展。

随着共建“一带一路”进入高质量发展新阶段,科技创新与合作的重要性愈发凸显。为此,上海人工智能实验室(上海AI实验室)积极研发先进数据智能技术,并推出多语言语料库等举措,旨在以人工智能赋能高质量共建“一带一路”。

2025年1月9日,上海AI实验室携手大模型语料数据联盟成员,共同发布了“万卷·丝路”多语言预训练语料库。该语料库为多语言大模型训练提供了强有力的数据支撑,助力人工智能技术在多语言环境下的应用与发展。

“万卷·丝路”首期开源了泰语、俄语、阿拉伯语、韩语和越南语五个语种的语料,总规模超过1.2TB(单语种均超过150GB),Token总数超过300B(300 billion),涵盖了使用上述语种国家地区的生活、百科、文化、新闻等七大领域数据。这一数据规模和质量均处于国际领先水平。

数据作为人工智能的重要基础设施,其质量直接决定了人工智能的应用能力。针对当前多语言语料库发展不平衡、高质量语料短缺的问题,上海AI实验室通过采集多个国家地区的网络公开信息、文献、专利等资料,精心打造了“万卷·丝路”多语言语料库。该语料库不仅数据规模庞大,而且分类细致,涵盖了历史、政治、文化、房产、购物、天气、餐饮、百科、专业知识等多个领域,满足研究者多样化研究需求。

基于“书生·浦语”智能标签分类体系,上海AI实验室研究团队将“万卷·丝路”语料库细分为7个大类和32个小类,方便研究者快速检索所需数据,提高研究效率。

在保障数据质量方面,“万卷·丝路”语料库通过专家人工标注和数据智能相结合的方式,确立了包含完整性、有效性、可理解性、流畅性、相关性、相似性和安全性七个维度的文本数据质量评估体系。通过使用基于大语言模型的数据质量评估开源工具Dingo,研究团队对语料库的数据质量进行了全面评估,结果显示五个子集均获得优异的综合评分。

为了充分发挥“万卷·丝路”语料库的多语言特色,提升数据质量与适用性,上海AI实验室研究团队设计了一套精准化数据处理流程。该流程包括标准化处理、去重、安全性处理、主题分类、质量筛选等多个环节,有效融合了多语言特点与行业通识技术,为多语言模型训练提供了高质量、安全可靠的数据基础。

实验结果显示,使用“万卷·丝路”语料库后,模型在多语言内容理解及推理能力上的表现均获得了显著提升。这一成果进一步验证了“万卷·丝路”语料库在人工智能领域的应用价值。

此外,大模型语料数据联盟由上海人工智能实验室联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等10家单位共同发起。该联盟旨在通过链接模型训练、数据供给、学术研究、第三方服务等多方面机构,联合打造多知识、多模态、标准化的高质量语料数据,推动人工智能技术的创新与发展。