万亿数据产业背后，被AI「困住」的打工人 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

万亿数据产业背后，被AI「困住」的打工人

2026-06-09 / 阅读约10分钟

来源：36kr

AI催生数据标注、采集、构建等新岗位，但存在职业瓶颈和薪资差异。数据标注是AI裁判，数据采集是AI与物理世界的翻译，数据构建是数据去杂。AI发展受限，这些岗位面临长期职业生涯瓶颈。

「核心提示」

AI发展带来数据标注、数据采集等新岗位，但职业瓶颈和薪资限制了这些岗位的人才流入，反过来影响了AI能力的天花板。

AI的发展正催生出这样的图景：在分工层次上，人来负责上层的“判断和决策”、下层的“打标和整理”。而中间层的“分析和总结”，那些传统由分析师、咨询顾问和秘书完成的脑力劳动，正被各类AI工具填满。

好消息是，上下两层出现了一些新岗位。比如数据标注、数据构建和数据采集。这些岗位正以前所未有的速度涌入就业市场。脉脉报告显示，2026年春招AI岗位量同比增长8.7倍。

数据采集与具身智能密切相关：采集员需要穿戴动捕设备，记录触觉、视觉、力学等多模态数据，帮助机器人学习抓取、行走、避障等动作。

数据构建则是对数据“去杂”的过程：公开数据或企业数据库往往格式混乱、存在错误，需要人工进行筛选和整理。

数据标注则是AI产出内容的“裁判”，告诉大模型什么样的输出是“好的”，帮助AI形成学习正反馈，提升大模型输出内容的质量。

这些新工作到底是长久趋势，还是昙花一现；能成为“文科生的康庄大道”吗，还只是“新一代天坑”？为此，《豹变》找到了一些从事相关工作的人，试图还原AI催生的新岗位背后真实情况。

“数据做题家”的真实面貌

景璃在北京某互联网大厂担任数据标注的外包，工作是提升AI文创工具的输出质量，她大学专业是戏剧影视文学。

景璃对《豹变》说：“我标注过的品类包括演讲稿、小说、论文，现在做最多的是漫剧或者AI短剧的剧本。”

数据标注行业也有大量的非全职招聘。成都大学生文琪就找了一份数据标注的远程兼职，内容是给英文的语音转文字做标注。

她们的工作流程一般是这样的：电脑上会显示AI的几个输出结果，数据标注负责选一个最优结果，由负责质检的同事再判断一次，负责人抽查一次，最后再由甲方检查。根据这个最优结果，AI能够逐渐“理解”人类的评价标准，从而提升输出质量。

景璃一些外包同事是数学或计算机背景，他们会承担部分数据构建的工作，即爬取公开数据，依据特定的方式进行数据清洗、整理，最后用于大模型的标注和训练。分工上，数据构建位于标注的上游。

行业内把构建和标注工作戏称为“做题”，没有这些“数据做题家”就没有各类AI工具。

据国家数据发展研究院测算，2025年专业数据产品（含人工智能训练的高质量数据集）产值规模超过2.3万亿元。

2025年3月，国家数据局数据显示，成都、沈阳、合肥等七大数据标注基地带动从业人员5.8万人，相关产值超83亿元。

市场很大，岗位薪水也各有不同。景璃与她的同事们每月能拿到12k到18k左右的固定薪水，少数人可以拿到额外奖金；文琪的兼职也能拿到每月接近10k的固定薪水。

但是，一线城市以外的地方，数据标注的薪水就没这么可观了。景璃谈到，在一些北方省会城市，同等岗位工资大约是北京的一半。

一些小城市则更低，且人员流动性很大。“新员工下班等电梯都在刷BOSS直聘找工作。”某位身在小城市、刚刚入职的数据标注员这样对《豹变》透露，他的首月薪水是1500元。

差异不光来自城市，也来自公司在行业的地位。在数据标注出现以前，景璃所在的公司就是业内知名的外包公司，客户包括国内多家互联网大厂。

这也决定了他们的招聘要求。景璃所在岗位要求有编剧、文学创作类经验，校招生前几年要求是本科，现在则要求985/211大学的文学类专业。文琪的兼职是英语类，要求英语专业八级，且成绩至少要达到“良好”。

AI需要“裁判”“翻译”和“保姆”

为什么AI需要这些工作？

因为AI缺乏实践积累出来的判断能力。目前，主流AI已经把互联网上的公开信息学习完毕。但在各类细分行业，还存在着大量的“水下信息”：行业内部的隐性知识、经验判断，甚至市面上的二手消息也需要进行甄别，数据标注就是这样一个帮助AI理解人类评价标准的“信息裁判”。

以法律领域为例，AI可以背诵所有法条，但面对一个具体案件的证据链分析，需要理解法官在特定地区的裁判倾向、了解某些证据在实践中的采信概率，这些不会出现在裁判文书网上。

景璃所在的剧本赛道，AI在标注前的输出质量很难让人类满意。“从戏剧创作的角度，AI生成的内容很多有明显的问题，处理这些问题的标准是相对简单、客观的。有时候，AI给的几个备选都不太好，甚至很难找到最优的。”

如果说数据标注是信息裁判，那么具身智能的数据采集就是AI与物理世界之间的翻译。现实世界存在海量物理信息，人和动物的神经系统可以自主适应，但机器人就必须靠人把真实情况如何“告诉”它。

此前有业内人士表示，大语言模型GPT-5训练语料折合约100亿小时，而全行业汇聚的高质量具身数据仅约50万小时，差距以万倍计。

数据采集的缺口大，也催生出资本热度，目前行业里头部的创业玩家，光轮智能和帕西尼感知估值均达到了百亿级别。

帕西尼感知2025年在天津投产了全球最大具身智能数据采集工厂——Super EID Factory，部署超150个标准化采集单元，年产2亿条高质量训练数据；2026年又在江苏宿迁、湖北武汉、四川自贡、江西赣州建4座超级工厂。

复杂的不光是物理世界，还有企业的数据库。一位从事制造业的人士告诉《豹变》，个人和企业级AI Agent存在开发上的鸿沟，因为AI本质上是一个概率模型，难以完成企业里一些“精准且复杂”的工作，比如数据管理。

一位AI产品经理表示，“我们现在的数据管理智能体，正式运行前的数据清洗还是需要人工来完成。AI如果想要应用于传统制造业，对数据质量的要求很高。”

原因在于，大部分制造业没有使用统一格式的数据库，不同部门使用不同的数据标准，同一组数据在不同的表格里有不同的字段名称，数据中还存在大量冗余信息和错误。由于AI有一定概率出现幻觉，无法精准消化这些“脏数据”，必须经过清洗、对齐、补全。

这导致了AI工具要在企业跑通，需要有人做它的“保姆”。现在的企业级AI Agent，大多以整合服务方案应用于制造业，方案内容包括：数据线上化、数据清洗，最后才是AI Agent的具体应用。

人和AI各自的“烦恼”

不光是传统制造业，AI大厂的管理者们也希望通过AI提高企业日常运行的效率。但现实是，企业管理层往往寄望于AI降本增效，却低估了基层员工在决策中的作用。

一些大厂员工对《豹变》表示，企业强推AI，实际上增加了工作压力，因为员工不得不为AI的工作产出“擦屁股”。员工被要求在AI辅助下完成更多任务，但AI输出的结果又需要人工反复核对修正。

这也和一些公开的研究成果相吻合。

员工行为分析平台ActivTrak跟踪了2023-2025年超千家企业和4.43亿小时的数字化工作行为数据，并得出结论：随着AI落地职场，从业者的工作量并未减少，反而出现周末加班增多、工作碎片化加剧的情况。其中，员工的协作沟通时长增加34%，多任务处理时间增加了12%。

当然，这种压力一般不会压在数据外包的头上。“每天10点上班7点下班，一天工作8到9小时，白天时不时也能休息。”景璃这样对《豹变》说。

虽然觉得工作的性价比还可以，但景璃还是在考虑别的方向。“我的目标是去做短剧编剧，现在这份工作很机械，做久了对职业发展没什么帮助。”她的大多数同事却觉得，现在找个事少离家近的工作已经不容易了，抱着先做着的心态。

想法的不同可能和群体有关。景璃刚参加工作不久，她的同事们则大多超过30岁。在互联网大厂，这已经是一个平均年龄相对较大的群体。

文琪也明确表示，做数据标注的兼职只是赚个外快，校招找工作是不会找数据标注的。文琪的兼职群里也大多是学生或其他需要赚快钱的各类人群。

这可能意味着，从事数据标注的人要面对长期的职业生涯瓶颈。

这种没有行业资深人士参与、提升空间有限的状况，也限制了AI的能力。一些头部数据标注公司也试图寻找专业人士，但整体上并不成功。一位资深律师向《豹变》透露，有数据标注公司找上过自己，但被他拒绝，因为开出的价码太低。“就算你给我8000元一小时，我还要掂量下要不要冒失去饭碗的风险，何况只给200元一小时呢？”

越是需要做复杂判断的领域，数据标注的成本越高，但很多标注企业又不愿意付出足够高的溢价。结果是，这些领域的数据缺口长期存在，模型在垂直场景的表现也难以突破。

具身智能也面对类似的数据价格瓶颈，后果则是企业间的差距被拉大。真机遥控操作是行业公认质量最高的数据采集方案，单小时有效数据的成本可高达数千元，头部机器人公司凭借资金优势拥有最丰富的真机数据积累。

但很多公司受限于资金规模，只能用头部机器人公司的公开数据或仿真数据训练自己的模型，但仿真数据与真实物理环境存在偏差，迁移到真机时往往出现“Sim2Real Gap”（仿真到现实的差距）。

长远来看，数据成本总有随着规模化而被摊薄的一天。但AI始终要面对“做错了谁来负责”的问题。

责任背后，是法律与社会对“人格化主体”的认定。但AI不是法律主体，不能承担民事责任。企业如果用AI替代专业人士完成这些工作，一旦出错，责任链条会变得模糊不清。

这也是很多工作无法被AI取代的另一重原因。这些工作，既是AI发展的基石，也是AI局限性的证明。只要AI还在学习人类知识，只要物理世界还需要被“翻译”成数字语言，只要社会还需要明确的责任主体，这些工作岗位就会继续存在。

（应受访者要求，文中均为化名）

上一篇：股民们替苹果AI交了2300亿美元的“补考费”

下一篇：人工智能企业 Perplexity：无论 Anthropic 与 OpenAI 表现如何，公司计划 ...

返回列表

热文阅读

2 天前