万亿数据产业背后,被AI「困住」的打工人
4 小时前 / 阅读约10分钟
来源:36kr
AI催生数据标注、采集、构建等新岗位,但存在职业瓶颈和薪资差异。数据标注是AI裁判,数据采集是AI与物理世界的翻译,数据构建是数据去杂。AI发展受限,这些岗位面临长期职业生涯瓶颈。

「核心提示」

AI发展带来数据标注、数据采集等新岗位,但职业瓶颈和薪资限制了这些岗位的人才流入,反过来影响了AI能力的天花板。 

AI的发展正催生出这样的图景:在分工层次上,人来负责上层的“判断和决策”、下层的“打标和整理”。而中间层的“分析和总结”,那些传统由分析师、咨询顾问和秘书完成的脑力劳动,正被各类AI工具填满。

好消息是,上下两层出现了一些新岗位。比如数据标注、数据构建和数据采集。这些岗位正以前所未有的速度涌入就业市场。脉脉报告显示,2026年春招AI岗位量同比增长8.7倍。

数据采集与具身智能密切相关:采集员需要穿戴动捕设备,记录触觉、视觉、力学等多模态数据,帮助机器人学习抓取、行走、避障等动作。

数据构建则是对数据“去杂”的过程:公开数据或企业数据库往往格式混乱、存在错误,需要人工进行筛选和整理。

数据标注则是AI产出内容的“裁判”,告诉大模型什么样的输出是“好的”,帮助AI形成学习正反馈,提升大模型输出内容的质量。

这些新工作到底是长久趋势,还是昙花一现;能成为“文科生的康庄大道”吗,还只是“新一代天坑”?为此,《豹变》找到了一些从事相关工作的人,试图还原AI催生的新岗位背后真实情况。

“数据做题家”的真实面貌

景璃在北京某互联网大厂担任数据标注的外包,工作是提升AI文创工具的输出质量,她大学专业是戏剧影视文学。

景璃对《豹变》说:“我标注过的品类包括演讲稿、小说、论文,现在做最多的是漫剧或者AI短剧的剧本。”

数据标注行业也有大量的非全职招聘。成都大学生文琪就找了一份数据标注的远程兼职,内容是给英文的语音转文字做标注。

她们的工作流程一般是这样的:电脑上会显示AI的几个输出结果,数据标注负责选一个最优结果,由负责质检的同事再判断一次,负责人抽查一次,最后再由甲方检查。根据这个最优结果,AI能够逐渐“理解”人类的评价标准,从而提升输出质量

景璃一些外包同事是数学或计算机背景,他们会承担部分数据构建的工作,即爬取公开数据,依据特定的方式进行数据清洗、整理,最后用于大模型的标注和训练。分工上,数据构建位于标注的上游。

行业内把构建和标注工作戏称为“做题”,没有这些“数据做题家”就没有各类AI工具。

据国家数据发展研究院测算,2025年专业数据产品(含人工智能训练的高质量数据集)产值规模超过2.3万亿元。

2025年3月,国家数据局数据显示,成都、沈阳、合肥等七大数据标注基地带动从业人员5.8万人,相关产值超83亿元。

市场很大,岗位薪水也各有不同。景璃与她的同事们每月能拿到12k到18k左右的固定薪水,少数人可以拿到额外奖金;文琪的兼职也能拿到每月接近10k的固定薪水。

但是,一线城市以外的地方,数据标注的薪水就没这么可观了。景璃谈到,在一些北方省会城市,同等岗位工资大约是北京的一半。

一些小城市则更低,且人员流动性很大。“新员工下班等电梯都在刷BOSS直聘找工作。”某位身在小城市、刚刚入职的数据标注员这样对《豹变》透露,他的首月薪水是1500元。

差异不光来自城市,也来自公司在行业的地位。在数据标注出现以前,景璃所在的公司就是业内知名的外包公司,客户包括国内多家互联网大厂。

这也决定了他们的招聘要求。景璃所在岗位要求有编剧、文学创作类经验,校招生前几年要求是本科,现在则要求985/211大学的文学类专业。文琪的兼职是英语类,要求英语专业八级,且成绩至少要达到“良好”。

AI需要“裁判”“翻译”和“保姆”

为什么AI需要这些工作?

因为AI缺乏实践积累出来的判断能力。目前,主流AI已经把互联网上的公开信息学习完毕。但在各类细分行业,还存在着大量的“水下信息”:行业内部的隐性知识、经验判断,甚至市面上的二手消息也需要进行甄别,数据标注就是这样一个帮助AI理解人类评价标准的“信息裁判”。

以法律领域为例,AI可以背诵所有法条,但面对一个具体案件的证据链分析,需要理解法官在特定地区的裁判倾向、了解某些证据在实践中的采信概率,这些不会出现在裁判文书网上。

景璃所在的剧本赛道,AI在标注前的输出质量很难让人类满意。“从戏剧创作的角度,AI生成的内容很多有明显的问题,处理这些问题的标准是相对简单、客观的。有时候,AI给的几个备选都不太好,甚至很难找到最优的。”

如果说数据标注是信息裁判,那么具身智能的数据采集就是AI与物理世界之间的翻译。现实世界存在海量物理信息,人和动物的神经系统可以自主适应,但机器人就必须靠人把真实情况如何“告诉”它。

此前有业内人士表示,大语言模型GPT-5训练语料折合约100亿小时,而全行业汇聚的高质量具身数据仅约50万小时,差距以万倍计。

数据采集的缺口大,也催生出资本热度,目前行业里头部的创业玩家,光轮智能和帕西尼感知估值均达到了百亿级别。

帕西尼感知2025年在天津投产了全球最大具身智能数据采集工厂——Super EID Factory,部署超150个标准化采集单元,年产2亿条高质量训练数据;2026年又在江苏宿迁、湖北武汉、四川自贡、江西赣州建4座超级工厂。

复杂的不光是物理世界,还有企业的数据库。一位从事制造业的人士告诉《豹变》,个人和企业级AI Agent存在开发上的鸿沟,因为AI本质上是一个概率模型,难以完成企业里一些“精准且复杂”的工作,比如数据管理。

一位AI产品经理表示,“我们现在的数据管理智能体,正式运行前的数据清洗还是需要人工来完成。AI如果想要应用于传统制造业,对数据质量的要求很高。”

原因在于,大部分制造业没有使用统一格式的数据库,不同部门使用不同的数据标准,同一组数据在不同的表格里有不同的字段名称,数据中还存在大量冗余信息和错误。由于AI有一定概率出现幻觉,无法精准消化这些“脏数据”,必须经过清洗、对齐、补全。

这导致了AI工具要在企业跑通,需要有人做它的“保姆”。现在的企业级AI Agent,大多以整合服务方案应用于制造业,方案内容包括:数据线上化、数据清洗,最后才是AI Agent的具体应用。

人和AI各自的“烦恼”

不光是传统制造业,AI大厂的管理者们也希望通过AI提高企业日常运行的效率。但现实是,企业管理层往往寄望于AI降本增效,却低估了基层员工在决策中的作用。

一些大厂员工对《豹变》表示,企业强推AI,实际上增加了工作压力,因为员工不得不为AI的工作产出“擦屁股”。员工被要求在AI辅助下完成更多任务,但AI输出的结果又需要人工反复核对修正。

这也和一些公开的研究成果相吻合。

员工行为分析平台ActivTrak跟踪了2023-2025年超千家企业和4.43亿小时的数字化工作行为数据,并得出结论:随着AI落地职场,从业者的工作量并未减少,反而出现周末加班增多、工作碎片化加剧的情况。其中,员工的协作沟通时长增加34%,多任务处理时间增加了12%。

当然,这种压力一般不会压在数据外包的头上。“每天10点上班7点下班,一天工作8到9小时,白天时不时也能休息。”景璃这样对《豹变》说。

虽然觉得工作的性价比还可以,但景璃还是在考虑别的方向。“我的目标是去做短剧编剧,现在这份工作很机械,做久了对职业发展没什么帮助。”她的大多数同事却觉得,现在找个事少离家近的工作已经不容易了,抱着先做着的心态。

想法的不同可能和群体有关。景璃刚参加工作不久,她的同事们则大多超过30岁。在互联网大厂,这已经是一个平均年龄相对较大的群体。

文琪也明确表示,做数据标注的兼职只是赚个外快,校招找工作是不会找数据标注的。文琪的兼职群里也大多是学生或其他需要赚快钱的各类人群。

这可能意味着,从事数据标注的人要面对长期的职业生涯瓶颈。

这种没有行业资深人士参与、提升空间有限的状况,也限制了AI的能力。一些头部数据标注公司也试图寻找专业人士,但整体上并不成功。一位资深律师向《豹变》透露,有数据标注公司找上过自己,但被他拒绝,因为开出的价码太低。“就算你给我8000元一小时,我还要掂量下要不要冒失去饭碗的风险,何况只给200元一小时呢?”

越是需要做复杂判断的领域,数据标注的成本越高,但很多标注企业又不愿意付出足够高的溢价。结果是,这些领域的数据缺口长期存在,模型在垂直场景的表现也难以突破。

具身智能也面对类似的数据价格瓶颈,后果则是企业间的差距被拉大。真机遥控操作是行业公认质量最高的数据采集方案,单小时有效数据的成本可高达数千元,头部机器人公司凭借资金优势拥有最丰富的真机数据积累。

但很多公司受限于资金规模,只能用头部机器人公司的公开数据或仿真数据训练自己的模型,但仿真数据与真实物理环境存在偏差,迁移到真机时往往出现“Sim2Real Gap”(仿真到现实的差距)。

长远来看,数据成本总有随着规模化而被摊薄的一天。但AI始终要面对“做错了谁来负责”的问题。

责任背后,是法律与社会对“人格化主体”的认定。但AI不是法律主体,不能承担民事责任。企业如果用AI替代专业人士完成这些工作,一旦出错,责任链条会变得模糊不清。

这也是很多工作无法被AI取代的另一重原因。这些工作,既是AI发展的基石,也是AI局限性的证明。只要AI还在学习人类知识,只要物理世界还需要被“翻译”成数字语言,只要社会还需要明确的责任主体,这些工作岗位就会继续存在。

(应受访者要求,文中均为化名)