AI导读:

全国政协委员王江平建议设立人工智能国家数据集建设委员会,加强高质量行业数据集建设,促进数据自由流通与高效配置,破解AI发展的数据瓶颈问题。

随着Deepseek的火爆出圈,“人工智能+”正加速渗透到产业竞技场。AI已成为生产生活中不可或缺的基础设施,如同水电一般。然而,数据作为AI发展的“燃料”,却面临高质量中文数据集供给严重不足的问题,这成为AI发展的瓶颈。

如何破解AI发展的“数据瓶颈”难题?在今年两会上,全国政协委员、工信部原副部长王江平对此高度关注。他建议,比照国家教材委员会的模式,设立人工智能国家数据集建设委员会,并引导政府部门、学术界、企业界等多主体开展高质量行业数据集建设。

高质量数据集是AI发展的关键

数据、算法和算力是AI发展的三大核心要素。其中,大规模、高质量、多样化的数据集对于大模型性能突破和落地应用至关重要。

王江平指出,当前全球积极布局人工智能产业,数据资源已成为重要战略资产。加强人工智能国家数据集建设,不仅是提升我国AI技术水平的必要举措,更是抢占国际竞争制高点的关键。

一直以来,AI大模型因数据质量问题而备受争议,常常一本正经地“胡说八道”。要避免AI大模型产生“幻觉”,确保训练数据的高质量和多样性至关重要。

王江平在接受采访时表示,AI的“补白机制”依赖于高质量的数据集。如果特定领域数据集不完整,就会降低模型的权重,导致输出结果产生“幻觉”。归根究底,这是数据集质量的问题。

加强数据集建设,有助于对数据进行严格筛选、标注和管理,保证训练数据的质量和正确价值取向,从源头上降低伦理和安全风险。

当前,AI技术正加速融入多个行业。加强数据集建设,也是AI深入赋能行业的必要举措。王江平表示,建设国家数据集能够为垂直行业提供丰富且专业的数据支撑,推动产业升级和创新发展。

据王江平介绍,美国早在2009年就启动了Data.gov平台建设,数据体量和质量领先全球。相比之下,我国在高质量中文数据集供给方面仍存在较大差距。

国内高质量数据集建设还面临规范性不足、专业性不强、数据流通不畅等挑战。王江平建议,设立国家人工智能数据集专项基金,支持国家数据集的建设、维护和更新。

推动数据自由流通与高效配置

如何破解“数据瓶颈”,促进数据自由流通与高效配置,成为AI发展的一道必答题。

王江平建议,设立人工智能国家数据集建设委员会,统筹规划国家数据集建设的战略方向。同时,加快制定通用/行业数据集质量标准,提升数据集的专业性和质量。

为支持行业数据集建设,可联合国家实验室、科研机构、高校、科技领军企业等多主体,围绕特定领域和场景,协同建设和储备一批高质量数据集。

此外,还应探索数据共享机制,鼓励龙头企业和行业协会牵头,建设行业和企业级可信数据空间,构建多方互信的数据流通利用环境。

在数据流通与使用过程中,安全问题也不容忽视。王江平建议,根据数据性质和用途,统筹好开源和闭源的关系,确保数据的充分利用和安全保护。

加快图书/期刊、视频、文献资料等高质量多模态公共数据开放,建立人大代表、政协委员监督保障机制,加强数据动态更新和安全开发利用等管理制度建设,充分释放数据要素价值。

(文章来源:南方都市报)