AI导读:

教育部、国家语委等部门印发《关于加强数字中文建设推进语言文字信息化发展的意见》,旨在全面推动数字中文建设。创新应用前沿技术,重点服务大语言模型等人工智能技术创新应用,推动产业升级,构建新型国家语料库。

  21世纪经济报道记者王峰北京报道语言文字是大模型的资源池,语料库的质量决定着大模型的发展。在大模型时代,语言文字已成为赋能产业发展的关键数据要素。

  近日,教育部、国家语委、中央网信办联合印发了《关于加强数字中文建设推进语言文字信息化发展的意见》(以下简称《意见》),旨在全面推动数字中文建设,促进语言文字与信息技术的深度融合。

  在3月31日的教育部新闻发布会上,教育部语言文字信息管理司司长刘培俊强调,《意见》创新应用了自然语言处理、大语言模型、多模态信息处理、知识图谱、语料加工等前沿技术,重点服务于大语言模型等人工智能技术创新应用,夯实国家关键语料基础设施。

数字中文引领产业升级

  回顾20世纪80年代,王选院士团队发明的激光照排技术,结合汉字编码标准,突破了中文数字化的空间限制,让中文在全球互联网空间中焕发新生。

  当前,大语言模型技术对大规模、高质量的语料库提出了前所未有的需求,赋予了数据中文化新的历史使命。

3月31日教育部新闻发布会图片来源:教育部官网

  北京大学王选计算机研究所所长汤帜指出,新形势下,语言文字将与信息技术深度融合,形成良性循环,打造数字化品牌,服务教育发展、科技创新、文化传承、产业升级和社会进步。

  《意见》明确提出实施数字中文推动产业升级行动,支持语言文字信息技术新产品、新职业和新业态的发展,鼓励传统语言产业数字化转型升级,并培育基于数字中文的新型语言产业。

  汤帜介绍,语言文字将从“静态符号”转变为“动态数字资产”,从“信息载体”转变为“生产要素”,重点推动语料库、数据标注与评价等标准的研制,支持多种语言任务。

  例如,广东省教育厅在广州大学设立了粤语语料库建设与大模型评测重点实验室,为语料基础设施建设、语言智能应用等提供坚实的数据支撑。同时,北京师范大学针对古汉语信息处理任务,训练出了“AI太炎”古汉语大语言模型,广泛应用于学术科研、基础教育等领域。

构建新型国家语料库

  根据《教育强国建设规划纲要(2024—2035年)》,我国将建设新型国家语料库。《意见》也提出,到2027年初步建成国家关键语料库。

  刘培俊指出,将聚焦关键领域,分批建设规范、安全、优质的国家关键语料库。目前,教育部、国家语委已支持建设了30余项关键领域的语料库。

  此外,北京师范大学已建设了多个专业数字资源库,如通用汉字全息数据库、《说文》学数字资源库等。

  教育部语言文字应用管理司副司长王晖强调,在人工智能技术创新不断取得突破的背景下,建设新型国家语料库凸显了其重要性。当前,许多语料库还存在不足,难以满足智能化语言数据需求。

  因此,下一步将突破传统语料库的壁垒,以大模型训练及性能评测、智能计算为核心,打造规范、可信、高质量的语言文化语料资源。

  据介绍,目前已启动“中华文脉新型语料库”和“中华大阅读体系语料库”的建设,旨在服务教育强国、文化强国建设。

(文章来源:21世纪经济报道)