AI导读:

随着人工智能技术的快速发展,高质量训练数据的短缺成为制约行业进步的瓶颈。数据标注产业作为人工智能创新发展的强大动力,正受到国家层面的高度重视。本文探讨了我国数据标注产业的现状、面临的挑战以及未来的发展前景。

随着人工智能技术的蓬勃兴起,高质量训练数据的稀缺性已成为制约该领域进一步发展的重大挑战。数据标注产业,作为人工智能创新发展的强大驱动力,正日益受到重视。近日,国家发展改革委、国家数据局、财政部、人力资源和社会保障部四部门联合发布了《关于促进数据标注产业高质量发展的实施意见》(以下简称《实施意见》),明确提出至2027年的发展蓝图:旨在显著提升数据标注产业的专业化、智能化及科技创新能力,推动产业规模实现大幅度增长,预期年均复合增长率将突破20%。

我国数据标注产业的现状如何?在迈向高质量发展的道路上,还需克服哪些关键障碍?针对这些热点问题,科技日报记者进行了深入探访。

将原始数据转化为可用资源是数据标注的核心任务。华南理工大学计算机科学与工程学院副院长张通以生动的比喻解释道,训练人工智能大模型的过程犹如教师教导学生识字,而数据标注则是为数据“贴上标签”或“做好记号”,这需要专业人员向大模型详细阐释每个数据的标签及其需执行的任务。他们如同导师,指导大模型理解训练数据的本质,为图像、语音、文本等多样数据“贴上标签”。高质量的数据标注能够助力机器实现精准理解、快速学习及高效训练,从而大幅提升大模型的准确性和泛化能力。

在ChatGPT的训练过程中,美国开放人工智能研究中心(OpenAI)投入了大量资源于数据标注工作。为确保标注任务的高质量完成,进而使ChatGPT更好地理解人类指令,保障大模型的准确性与可靠性,OpenAI聘请了大量“教师”。这些“教师”队伍涵盖了从一般数据标注人员到专业人士,甚至包括博士级别的专家。

数据标注被誉为人工智能发展的核心基石之一。张通介绍称,数据标注产业涉及对数据的筛选、清洗、分类、注释、标记和质量检验等一系列加工处理环节,其核心在于将原始数据转化为可用于训练人工智能大模型的优质素材。作为训练大模型的关键步骤,数据标注直接影响机器学习模型的性能,对支撑人工智能能力的提升发挥着举足轻重的作用。

在张通看来,未经处理的原始数据仅是潜在资源,而经过标注处理并沉淀的数据,才能在市场上实现有效交易和流通,从而充分释放数据要素的价值。因此,培育壮大数据标注产业,对于提升数据供给质量、推动人工智能创新发展具有不可或缺的意义。

业内人士指出,随着人工智能技术的不断成熟和应用领域的持续拓展,数据标注行业将迎来更为广阔的市场空间,特别是在低空经济、智慧城市、自动驾驶、智慧医疗等新兴科技领域展现出巨大的发展潜力。

我国数据标注产业已步入快速发展的崭新阶段。近年来,产业链条不断完善,技术创新成果正逐步转化为市场化应用。据估算,2023年我国数据标注产业规模已达到约800亿元人民币。四川成都、辽宁沈阳、安徽合肥、湖南长沙等7个城市承担了数据标注基地建设任务,并在大模型标注、自动化标注等领域取得了重要突破。

长沙信息产业园作为长沙首批数据标注基地之一,已吸引了智能网联汽车、数据标注、网络安全等领域的1万余家各类数字企业入驻,并成功打造了人工智能创新中心算力服务平台。广东省也在积极推进数据标注训练试点和基地建设,为大模型训练提供坚实的数据支撑。2023年9月,广东省公共数据标注训练试点正式启动,在广东省公共数据标注基地(清远),百度、燕湖科技、好思达等一批在自动驾驶、政务公共标注领域表现突出的企业已率先入驻。

广东省公共数据标注基地(清远)负责人李艳康介绍称,该基地以数字经济产业为核心,与数字经济产业龙头企业紧密合作,致力于打造国家级数据标注产业集聚区和产教融合示范区。落户在此的百度智能云(清远)人工智能基础数据产业基地已累计引进孵化5家数据标注企业,并培育了超过300名专业数据标注师。未来,该基地将持续培育孵化更多优秀的数据标注企业,推动清远数据服务产业的不断壮大与发展。

然而,值得注意的是,随着人工智能应用的不断深化,对数据标注的需求也愈发呈现出细分化和专业化的趋势。2024年7月,张通团队与广州华银康医疗集团股份有限公司在人工智能与数字经济广东省实验室(广州)共同建立了AI病理研究中心,致力于研发人工智能病理大模型,使人工智能模型能够像专业医生一样进行疾病诊断和治疗。在数据预处理环节,该中心特别聘请了3位资深的主任级医师进行数据标注。

“在医疗、材料等专业领域,涉及到专业对象和术语结合的标注过程,只有专业从业人员才能胜任标注工作。此外,标注任务极其耗时、耗力、耗资源。整个标注工作并非一蹴而就,而是需要在实际应用场景中不断优化、持续迭代,以促使模型智能化水平不断升级。”张通指出,当前我国数据标注行业面临着人才缺口的严峻挑战,亟待培养复合型数据标注人才,这是我国数据标注产业实现高质量发展必须跨越的关键障碍。

为此,《实施意见》对加强标注人才队伍建设作出了具体部署。通过实施人才项目计划和科技项目等措施,培育和引进高端专业人才;制定或修订人工智能训练、数据标注相关职业的国家职业标准;支持数据标注领域职业资格与职业技能等级的衔接互认。这些举措将为数据标注产业的高质量发展提供有力支撑。

同时,完善的产业生态建设对于数据标注行业的发展同样至关重要。《实施意见》提出,要畅通数据采集、标注、人工智能应用产业链,推动数据标注产业上下游的协同发展;支持数据标注龙头企业和第三方机构等建设数据标注开源平台,助力中小企业的发展;培育一批涉及人力资源、供需对接、国际合作、法律审计等服务数据标注的第三方机构,以完善数据标注产业生态。

“未来数据标注行业的发展,可考虑采用‘以人工智能促人工智能’的思路,即利用已完成学习的人工智能技术反哺数据标注工作,以提高效率。这是一个值得深入探讨且极具价值的研究方向。”张通认为,数据标注行业的快速发展有望加速推动数字经济与实体经济的深度融合,从而加快形成新的生产力。

(文章来源:科技日报,图片来源:原文未提供,故无相关HTML代码)