揭秘具身数据产业链:一家数据公司的独角兽之路
3 小时前 / 阅读约8分钟
来源:36kr
具身智能数据产业链分四层:采集层、平台层、数据层、应用层。光轮智能通过数据复售模式成为独角兽。2026年中国具身智能市场规模预计破万亿,第三方数据售卖模式面临挑战。

近期,我刷到过这样的短视频报道:“宝妈居家工作,月收入3000-4000元。教机器人叠衣服、擦桌子。” 

这则消息引起了我的兴趣,不仅因为它代表了一个新兴的职业缺口——具身智能数据采集员。更重要的是,从整条产业链来看,这个工种的价值是什么,资本如何给它定价? 

我结合行业主流媒体的报道,做了调研分析,结果发现,具身智能居家采集员的时薪和他们创造的数据最终卖出的价格,中间有10倍以上的差价。 

但这不是高枕无忧的生意,未来仍存在挑战。 

理解这个商业逻辑和背后的产业链,也就理解了谁是生态链的核心角色,以及一家具身数据公司——光轮智能是如何在三年内快速成长为独角兽的,建议每一个关注具身智能赛道的创业者都了解下。 

一、产业链全景:四层结构,谁在哪个位置?

具身智能数据产业链可以拆成四层。 

最底层是采集层——劳动者,采集提供物理动作基础数据。 

这一层主要有四类人: 

居家采集员:新闻报道上的宝妈们戴着夹爪设备在自家客厅叠衣服、擦桌子,宣传时薪30元,实际有效时薪约17元,月收入3000-4000元。 

场地采集员:在数据采集中心里全职工作的大专毕业生,穿戴动捕设备。日薪180-250元,折算时薪22-31元。 

合肥市具身智能机器人数据采集预训练场 图源:网络 

真机遥操作员:专业技术人员穿戴力反馈手套,手把手教机器人完成精密操作。日薪300元以上,时薪75元以上。这是精度最高、成本也最高的采集方式。 

机器人真机遥操作图 图源:网络 

UMI采集员:穿戴鹿明FastUMI Pro这类无本体采集设备,不需机器人本体参与,成本降至遥操作的1/5,适合更精细化的数据采集。 

第二层是平台层——连接采集员和数据公司的中间商。 

作为中间商,平台层的核心角色是组织者,连接供需、管理流程,甚至提供物理空间和操作场景,并从中抽成。 

今年5月,京东在宿迁建了全国首个具身智能数据采集社区,计划发动10万+员工和50万行业人员。此外还有数不清的第三方外包团队和小型组织者。 

外包平台从数据公司接单,分包给采集员,中间抽取30%-50%的差价。 

除了外包平台外,这个产业链的运作还需要一些基础设施的建设者,他们提供设备捕捉采集作业场景。 

比如,鹿明机器人、觅蜂科技、凌云光等设备提供商研发生产硬件,一套动捕设备10-50万元,一套UMI设备约2800元,他们的利润模式很简单易懂,设备租赁/售卖。 

第三层是数据层——整个产业链的核心玩家,堪称“炼金师”,把数据转化为资产。 

代表企业是光轮智能、智域基石、它石智航、觅蜂科技。

这些公司做的事是:把底层采集来的原始数据,经过清洗、标注、对齐、仿真增强,打包成可训练的数据产品,卖给下游客户。 

第四层是应用层——掏钱买数据的金主。 

代表企业有三类: 

第一类是人形机器人本体公司,如宇树、优必选、智元、银河通用、特斯拉等,需要真机数据训练模型。 

第二类是世界模型/大模型团队,典型企业如Google DeepMind、NVIDIA、World Labs,需要人类行为数据理解物理世界。 

第三类是产业应用方,如工厂、物流、医疗,需要场景适配数据。 

窥探具身智能数据产业链的全貌,是一个经典的“金字塔模型”:底层是大量的廉价劳动力,中层是抽成的平台和卖设备的公司,顶层是掌握数据资产和复售能力的数据公司。 

而采集员的位置非常清晰:他们是整个链条的燃料。 

二、数据售卖模式:从17元到300元的鸿沟

接着,来看看产业链的核心环节是怎么赚钱的。 

先算采集成本。 

居家采集员的有效时薪是17元,场地采集员日薪180-250元,按8小时算,时薪22-31元。 

UMI采集方案成本是传统遥操作的1/5,鹿明的FastUMI Pro将单条数据采集时间从50秒压缩到10秒,估算时薪成本约55元。 

真机遥操作成本最高,单小时有效数据成本在规模化运营后约275元(设备折旧+人工+场景),行业说法是小规模采集时可达数千元。 

再算售价。 

澎湃新闻2025年5月的调查给出了行业定价区间:具身智能数据总体定价在200-500元/小时。其中真机数据最贵,市场价500-1000元/小时。 

觅蜂科技CEO姚卯青透露,不依赖特定机器人本体的无本体数据,价格最终会收敛到真机数据的二分之一到三分之一——即300-400元/小时。 

现在算差价。 

这个数据说明了什么? 

采集方式越“低端”,差价倍数越大。  

真机遥操作员拿到275元,终端售价800元——只有2.9倍。居家采集员拿到17元,数据公司能以300元卖出——就有17.6倍的利差。 

这17元的时薪和300元的售价之间,283元的差额被平台抽成、数据公司的技术处理、设备折旧、以及数据资产的复售溢价等层层分走。 

但这还不是数据公司真正的利润来源。 

三、光轮智能的魔法:不是卖一次,是卖十次

光轮智能是这个层级的标杆企业,在成立后的短短三年时间内迅速融资壮大,成为今年的新晋独角兽企业,估值超10亿美元。 

根据官方透露的数据,截至2026年初,它累计交付超150万小时高质量人类数据,覆盖2.5万个环境节点、10万种任务类型。2026年第一季度新增订单5.5亿元。

粗算一下:5.5亿÷150万小时=约367元/小时的平均售价。看起来是行业水平,利润率也不是很高? 

这种算法有一个关键假设是这些数据只能卖一次。实际上,并非如此。 

光轮智能将这一能力概括为“数据复售率”,即单位小时的数据能够服务多少个不同客户和任务需求。 

光轮智能联合创始人杨海波的原话是:“在优质场景的数据,复售率已经能够超过10倍。” 

什么意思? 

同一份数据,不是卖给一个客户就完了。 

它可以卖给宇树、卖给优必选、卖给智元、卖给银河通用……每多卖一次,边际成本几乎为零(只需要做一些格式转换和场景适配),但收入是实打实的。 

这才是数据公司真正的商业模式:一次性投入采集成本,然后通过复售无限摊薄边际成本。 

数据的本质和软件一样——复制成本趋近于零。每多卖一次,毛利率就往上跳一截。 

这个逻辑解释了为什么资本市场给光轮智能100亿元的估值。不是因为它有150万小时的数据,而是因为这150万小时的数据可能被卖1500万次。 

四、千亿市场规模下,数据售卖可持续吗?

有数据显示,2026年中国具身智能市场规模预计突破1万亿元,其中数据服务占比超15%,市场规模约达到1500亿元。 

那么,在这其中,第三方数据复售模式占比多少尚不得而知。 

但可以预见的是,这类商业模式仍存在一些隐忧。 

头部机器人厂商早已意识到数据建设的重要性,开始搭建自研中心,包括智元机器人2026年成立具身智能数据平台觅蜂科技,宇树科技此次IPO招股募资将自主搭建大规模真实数据集,其对第三方数据的采购需求会有所下降。 

此外,从基础仿真数据、通用场景交互数据到部分真机标注数据集,一些成熟数据逐渐被头部企业、科研机构免费开放,这些开源数据也对数据售卖模式造成一定的冲击。 

例如,今年3月底,宇树科技宣布人形机器人高质量全身遥操作真机数据集UnifoLM-WBT-Dataset正式开源,覆盖340小时、合计189万条动作轨迹数据。 

不过目前全球开源数据体量上仍较少,未形成规模化效应。 

第三方数据服务商的核心竞争力,源于覆盖多场景的数据积累。 

但具身智能要在复杂的工业场景落地,需要的不是实验室数据而是真实工业现场数据,假如头部机器人通过合作可以直接获取工厂真机交互、动态场景的第一手数据,第三方数据的性价比优势会被不断弱化。 

未来第三方数据售卖模式可能会逐渐向两个方向收缩:一是服务没有能力自研数据的中小机器人厂商,二是提供自身难以覆盖的小众细分场景数据。