AI导读:

数据标注行业正经历深刻变革,从简单识别到复杂推理,从业门槛提升。随着深度学习、大模型技术兴起,行业向“自动化”“专业化”“高端化”发展,技术壁垒逐步提高。国家发布政策推动高质量发展,企业竞争转向技术维度。

“你能想象吗?我每天超过一半的工作时间,都沉浸在数据标注的海洋中。”百度算法工程师李杉(化名)向新京报贝壳财经记者透露了他的日常。

数据标注,即对图片、语音、文本及视频中的数据进行严格筛选、深度清洗、精准分类、详细注释,并为其添加恰当的标签。李杉深知,数据标注的精确度直接关系到AI模型的性能与实用性,因此他始终保持高度专注。

数据,被誉为人工智能技术发展的燃料。大量非结构化数据需经过标注转化为结构化数据,才能被系统有效识别。随着自动驾驶、大模型等尖端技术的崛起,市场对高质量数据标注的需求急剧上升。政策层面,国家也高度重视数据标注行业的发展。

近期,国家发改委等四部门联合发布了《关于促进数据标注产业高质量发展的实施意见》(简称《意见》)。《意见》提出,到2027年,数据标注产业的专业化、智能化及科技创新能力将显著提升,产业规模大幅跃升,年均复合增长率有望超过20%。旨在培育一批有影响力的科技型数据标注企业,打造产学研用联动的创新载体,建设特色鲜明的数据标注基地,构建完善的数据标注产业生态。

时代变迁,数据标注行业也在经历深刻变革。从简单的识别能力到复杂的推理能力,再到其他专业能力的积累,数据标注师的从业门槛不断提升。从人工标注到人机协同,数据标注企业间的竞争已转向技术维度,如何更好地与细分行业融合成为关键,技术壁垒逐步提高,行业正迎来新一轮变革。

曾几何时,数据标注师被贴上了“低端”的标签。在大众眼中,他们的工作简单易懂,无需专业技能,与工厂流水线上的工人无异,难以与“白领”或高科技前沿领域相提并论。然而,随着深度学习技术的兴起,数据标注行业迎来了第一次爆发,但当时的工作难度并未显著提升,仍然是简单的拖动鼠标选取图片内容并打上标签,竞争主要集中在价格上。

直到大模型的出现,数据标注行业才真正开始改变。AI需要执行的任务越复杂,所需的数据就越复杂。李杉解释说:“过去,我们可能只需要识别图片中的动物是猫还是狗,但现在需要从更多维度为图片做标签,如猫的种类、是否为宠物猫、市场价格区间等。”对于长文本的分析,也不再仅仅是拆词,还需要解读文本背后的语义、情绪,甚至为用户画像。逻辑能力、推理能力已成为数据标注师的必备技能。

图为刘吉工作的京数云数据标注公司。

在国家数据局对《意见》的解读中,“自动化”“专业化”“高端化”正成为数据标注产业的新标签。刘吉,一位在数据标注行业摸爬滚打多年的老兵,于2019年创立了公众号“AI数据标注猿”,通过开源共享传播行业知识。他看好数据标注行业的发展前景,希望为行业的进步贡献自己的力量。

随着大模型的兴起,数据标注行业产生了新的规则。在行业发展初期,市场上以基础大模型为主。然而,经过一年的发展,专业化垂直大模型已成为新的趋势。落地和商业化成为下一轮竞争的重点,因此数据标注不仅要求高质量,还需与业务需求紧密匹配。李杉指出,不同部门对数据标注的要求并不统一,而是与业务需求密切相关。

在与多位数据标注行业从业者的交流中,“业务导向”成为他们频繁提及的词汇。恺望数据创始人兼CEO于旭认为,数据是模型背后的生产力资源。随着小模型发展成大模型,再到大模型的落地和应用,对数据标注的要求也逐步提高,从轻加工向深加工转变。在第三方招聘软件上,AI数据标注师的职位要求已显著提升,包括本科及以上学历、经济大类或新闻国际关系等相关专业优先、良好的数据分析和建模能力等。

与此同时,传统数据标注师的月薪仍在三千元左右徘徊,即便是管理岗或质检岗,六千元左右的薪资也与AI数据标注师相去甚远。这表明,数据标注师正经历从行业技能到职业技能的转变,对专业技能的要求不断提升。2020年2月,数据标注员作为人工智能训练师的一个工种,被正式纳入国家职业分类目录。

这一变化对数据标注公司的经营能力提出了更高的要求。于旭指出,早期的数据公司可以通过大规模的人力管理和运营来提升生产力,但下一阶段的竞争更看重如何与产业、行业紧密结合,实现更快更准的落地。随着数据标注行业向“自动化”“专业化”“高端化”发展,竞争维度已从低价竞争转向技术竞争。

过去两年,恺望数据主要服务于自动驾驶企业。于旭在这个过程中发现了自动驾驶行业存在的问题,如数据量不足、数据价格过低、数据匹配的标准化规则尚未形成等。为了解决这些问题,北京亦庄智能城市研究院与恺望数据联手打造了国内首个“车路云”数据协同平台,专注于自动驾驶车辆感知数据和智能交通场景的智能数据应用服务。

该平台通过集成数据存储、监管与再加工技术,实现行业数据的共享与复用,提高了个性化结果的生成效率。云测数据则将自建标注基地和专业人才储备作为核心竞争力,致力于提升数据流转效率,打通与各个企业间的数据闭环。然而,数据标注行业仍处于发展初期,究竟哪种技术路线能够最终成功,还需时间的检验。

随着数据产业的不断发展,技术壁垒将更加凸显。于旭回忆说,2022年刚开始创业时,投资人对数据标注行业的了解程度参差不齐,有的完全没听说过,有的则持有刻板印象认为这是一个人力密集型的低价值行业。但到了2023年和2024年,投资人的态度发生了明显转变,尤其是国资背景的投资人越来越看重这个行业。

面对技术发展的迅猛势头,也伴随着对数据标注师未来的质疑。多位受访者认为,具备专业背景的数据标注师不仅不会消失,需求还会增加。但那些只会进行简单标注的数据标注师则可能会逐渐被AI取代。于旭强调说:“如果我们需要开展与本地生活相关的业务,比如出行业务,那么具有携程或飞猪工作背景的员工将是我们非常需要的人才。”

(文章来源:新京报贝壳财经记者张晗)