2026年全球具身智能赛道,关于VLA视频预训练商业化价值的争论持续发酵。
市场一边是高涨的融资热度,一边是持续的质疑声音。不少观点认为,依托互联网视频训练机器人只是阶段性噱头,难以支撑真实产业落地。但韩国初创公司RLWRLD的一笔融资,让整个赛道的技术路线和商业价值,有了更具象的观察样本。
近期,RLWRLD累计种子轮融资达到600亿韩元,折合4180万美元。对于一家仍处在早期技术打磨阶段的物理AI企业,这样的融资规模十分亮眼。更值得关注的是,本轮资金全部来自日韩实体产业资本,LG、SK、乐天、CJ物流、ANA航空悉数入局。
产业资本的持续加注,代表一线产业端对技术落地价值的真实判断。透过这家韩企的发展路径,可以看清视频预训练在不同场景下的适配逻辑,也能重新梳理当前赛道里不同技术范式的真实价值。
行业过去对视频预训练的讨论,大多停留在单一维度,简单判定技术有用或是炒作概念。RLWRLD的落地模式,让赛道的分层特征逐渐清晰。
市面上主流的视频训练方式,分为两种完全不同的落地形态,适配不同的发展阶段和商业场景。
国内不少具身AI初创公司,普遍选择抓取全网公开短视频完成模型底层预训练。海量的居家、生活、工业片段可以免费获取,数据体量足够庞大,能够快速让模型建立基础的视觉认知和动作逻辑。
这种方式更适合企业早期冷启动。初创团队无需投入高额成本采集真机数据,就能快速迭代模型、完成多场景测试,适配多行业试点和技术验证工作。
不过,要知道公开网络视频存在不少天然瑕疵,画面视角、拍摄光影、人为摆拍都会带来数据噪声,且视频记录的是人类肢体动作,和机器人的机械结构、受力逻辑存在偏差,高精度、高稳定性的工业作业场景中,表现往往不够稳定。

《华尔街科技眼》了解到,RLWRLD则选择了另一种更贴近产业的方式。团队放弃全网公开数据,深耕垂直实体场景,长期进驻酒店、物流仓储、便利店、航空后勤等线下岗位,通过穿戴设备全程记录在岗员工的真实操作流程。
这些原生的岗位相对而言费事儿,但实拍视频优势在于,没有多余画面干扰,完全贴合真实工作环境和标准作业动作。模型学习的不再是网络碎片化画面,而是一线成熟岗位的完整操作逻辑。
这类数据,恰好匹配服务业大量重复性、标准化的细碎工作。机器人无需改造现场环境,不用反复重新编程,适配原有工作流程,能够快速承接分拣、整理、收纳、简单辅助类工作。
两种视频训练模式,对应两类市场需求。全网视频适合快速搭建模型认知、拓宽场景边界,实景岗位视频更适合沉淀稳定、可付费、可量产的商业落地能力。场景差异,直接决定技术的落地效果和商业价值。
一笔超4000万美元的种子轮融资,背后大概率不是资本情绪炒作。更准确地说,是这套落地模式贴合日韩当下的产业现实,在需求、技术、生态、商业模式上,都形成了自洽的运转逻辑。
日韩老龄化带来的用工缺口,已经渗透到服务业各个细分岗位。
分场景来看,酒店客房运维、仓储拆包分拣、商超货架整理、机场后勤辅助等基础岗位,人员流动性大、人工成本逐年上涨,重复性高、附加值低的工作,长期面临招人难的问题。
传统自动化设备刚性极强,只能适配固定流水线,没办法应对服务业灵活多变的作业场景,行业长期缺少低成本的柔性自动化方案。
RLWRLD的实景训练模式,刚好填补了这一市场空白。依托真实岗位数据训练的机器人,适配线下真实作业环境,落地门槛低、改造成本可控,企业可以用更低的人力替代成本完成自动化升级,付费意愿和落地需求足够真实。
技术层面,实景视频训练规避了行业普遍存在的落地偏差问题。全网视频训练的模型,经常出现画面看懂、实操出错的问题,核心原因就是人类动作和机械硬件的物理逻辑不匹配,模型只能复刻视觉表象,难以适配真实物理作业规则。

《华尔街科技眼》了解到,RLWRLD以一线员工原生作业视频为核心数据,同步结合力觉、运动轨迹等物理参数做训练优化,模型学习的是标准化、可复用的岗位动作流程,作业稳定性大幅提升,减少了人工远程干预兜底的情况,技术落地的可靠性更贴合产业要求。
生态和商业模式,进一步放大了它的落地优势。从过往的投资记录可以看出,RLWRLD的投资方基本都是拥有海量线下场景的产业巨头,投资的同时直接开放自有业务场景,提供落地试点和真实业务订单。企业不用耗费大量成本开拓市场,从成立初期就拥有稳定的数据来源和收入场景,一边落地项目、一边迭代模型,形成持续的正向循环。
同时公司聚焦算法大脑研发,不涉足重资产的硬件制造,资金和人力全部集中在模型优化和数据体系搭建,资金利用效率更高,商业化节奏也更稳健。
多重因素叠加,让这套深耕垂直场景的实景视频路线,在日韩市场形成了可落地、可变现、可迭代的完整商业路径。
RLWRLD用大量产业落地证明,视频预训练具备真实的产业价值。只是市场对这条技术路线的认知,长期被另一种更轻量化、更低成本的训练范式干扰,也因此产生了巨大的行业分歧。
和韩国企业深耕实景视频的路径不同,国内物理AI赛道诞生了另一套主流打法,以全网公开视频预训练为核心底座。其中,千寻智能是这条技术路线成长最快、关注度最高,同时争议也最集中的头部企业。
千寻智能由前珞石机器人CTO韩峰涛与伯克利背景算法专家高阳联合创立,成立两年间快速跻身国内具身智能热门创业公司。公司核心技术逻辑,与RLWRLD同属视频驱动的物理AI体系,但取舍完全不同。
千寻依托全网海量公开视频完成模型通识预训练,再通过自研穿戴设备、工业遥操作数据做场景微调,走软硬件全栈自研路线,自研人形机器人整机,重点落地国内动力电池、高端制造等工业场景。
一韩一中、一实景一全网、一纯算法一全栈硬件,两条同源却完全反向的路径,刚好构成当下视频预训练赛道的两大样本。结合国内产业环境来看,千寻智能的路线选择,存在充分的本土化合理性。
国内制造业品类繁杂、场景高度碎片化,工厂需求普遍呈现小批量、多品类、快迭代的特征,行业不存在统一标准化的作业流程。如果照搬RLWRLD逐场景、逐岗位采集实拍视频的模式,整体成本过高、扩张速度缓慢,很难适配国内工业市场的体量与复杂度。
依托全网公开视频做底层预训练,是国内机器人企业性价比最高、扩张效率最快的冷启动方式。可以快速让模型积累通用世界认知,适配五花八门的工业非标场景,快速产出标杆落地项目。
同时千寻并未完全依赖外网数据,通过自建真机数据体系补足场景偏差,叠加国内完善的机器人供应链优势,全栈自研模式也保留了长期硬件量产的增长空间。
不过对照RLWRLD成熟、稳定、可持续变现的商业路径,千寻智能路线的短板也十分突出,这也是行业质疑声持续存在的核心原因。
全网视频的数据属性,决定模型擅长泛化试水,很难在单一行业沉淀深度、标准化的作业能力。最终呈现出试点项目数量多、规模化付费落地少的现状,长期缺少稳定现金流支撑,高估值容易积累泡沫争议。
外网视频自带的视角偏差、画面噪声、人机躯体错位问题,始终无法彻底根除。复杂工业场景、高精度柔性作业中,机器人依旧需要人工远程干预辅助,自主稳定性和实景训练路线存在明显差距。
与此同时,全栈自研模式让公司同时承担算法、硬件、大规模数据团队的高昂成本,整体烧钱速度更快。但整机量产节奏偏谨慎,商业化兑现周期更长,在资本市场整体趋于理性的当下,后续需要更快的落地成果印证技术价值。
