4180万美元种子轮爆火：韩国物理AI撕开视频预训练的真实落地逻辑 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

4180万美元种子轮爆火：韩国物理AI撕开视频预训练的真实落地逻辑

9 小时前 / 阅读约8分钟

来源：36kr

2026年全球具身智能赛道，VLA视频预训练商业化价值争论持续。RLWRLD融资4180万美元，深耕垂直场景，实景视频训练模式填补市场空白。千寻智能依托全网视频预训练，走全栈自研路线。

2026年全球具身智能赛道，关于VLA视频预训练商业化价值的争论持续发酵。

市场一边是高涨的融资热度，一边是持续的质疑声音。不少观点认为，依托互联网视频训练机器人只是阶段性噱头，难以支撑真实产业落地。但韩国初创公司RLWRLD的一笔融资，让整个赛道的技术路线和商业价值，有了更具象的观察样本。

近期，RLWRLD累计种子轮融资达到600亿韩元，折合4180万美元。对于一家仍处在早期技术打磨阶段的物理AI企业，这样的融资规模十分亮眼。更值得关注的是，本轮资金全部来自日韩实体产业资本，LG、SK、乐天、CJ物流、ANA航空悉数入局。

产业资本的持续加注，代表一线产业端对技术落地价值的真实判断。透过这家韩企的发展路径，可以看清视频预训练在不同场景下的适配逻辑，也能重新梳理当前赛道里不同技术范式的真实价值。

从落地实践，看懂视频预训练的场景分层逻辑

行业过去对视频预训练的讨论，大多停留在单一维度，简单判定技术有用或是炒作概念。RLWRLD的落地模式，让赛道的分层特征逐渐清晰。

市面上主流的视频训练方式，分为两种完全不同的落地形态，适配不同的发展阶段和商业场景。

国内不少具身AI初创公司，普遍选择抓取全网公开短视频完成模型底层预训练。海量的居家、生活、工业片段可以免费获取，数据体量足够庞大，能够快速让模型建立基础的视觉认知和动作逻辑。

这种方式更适合企业早期冷启动。初创团队无需投入高额成本采集真机数据，就能快速迭代模型、完成多场景测试，适配多行业试点和技术验证工作。

不过，要知道公开网络视频存在不少天然瑕疵，画面视角、拍摄光影、人为摆拍都会带来数据噪声，且视频记录的是人类肢体动作，和机器人的机械结构、受力逻辑存在偏差，高精度、高稳定性的工业作业场景中，表现往往不够稳定。

《华尔街科技眼》了解到，RLWRLD则选择了另一种更贴近产业的方式。团队放弃全网公开数据，深耕垂直实体场景，长期进驻酒店、物流仓储、便利店、航空后勤等线下岗位，通过穿戴设备全程记录在岗员工的真实操作流程。

这些原生的岗位相对而言费事儿，但实拍视频优势在于，没有多余画面干扰，完全贴合真实工作环境和标准作业动作。模型学习的不再是网络碎片化画面，而是一线成熟岗位的完整操作逻辑。

这类数据，恰好匹配服务业大量重复性、标准化的细碎工作。机器人无需改造现场环境，不用反复重新编程，适配原有工作流程，能够快速承接分拣、整理、收纳、简单辅助类工作。

两种视频训练模式，对应两类市场需求。全网视频适合快速搭建模型认知、拓宽场景边界，实景岗位视频更适合沉淀稳定、可付费、可量产的商业落地能力。场景差异，直接决定技术的落地效果和商业价值。

实景视频路线能够跑通的底层原因

一笔超4000万美元的种子轮融资，背后大概率不是资本情绪炒作。更准确地说，是这套落地模式贴合日韩当下的产业现实，在需求、技术、生态、商业模式上，都形成了自洽的运转逻辑。

日韩老龄化带来的用工缺口，已经渗透到服务业各个细分岗位。

分场景来看，酒店客房运维、仓储拆包分拣、商超货架整理、机场后勤辅助等基础岗位，人员流动性大、人工成本逐年上涨，重复性高、附加值低的工作，长期面临招人难的问题。

传统自动化设备刚性极强，只能适配固定流水线，没办法应对服务业灵活多变的作业场景，行业长期缺少低成本的柔性自动化方案。

RLWRLD的实景训练模式，刚好填补了这一市场空白。依托真实岗位数据训练的机器人，适配线下真实作业环境，落地门槛低、改造成本可控，企业可以用更低的人力替代成本完成自动化升级，付费意愿和落地需求足够真实。

技术层面，实景视频训练规避了行业普遍存在的落地偏差问题。全网视频训练的模型，经常出现画面看懂、实操出错的问题，核心原因就是人类动作和机械硬件的物理逻辑不匹配，模型只能复刻视觉表象，难以适配真实物理作业规则。

《华尔街科技眼》了解到，RLWRLD以一线员工原生作业视频为核心数据，同步结合力觉、运动轨迹等物理参数做训练优化，模型学习的是标准化、可复用的岗位动作流程，作业稳定性大幅提升，减少了人工远程干预兜底的情况，技术落地的可靠性更贴合产业要求。

生态和商业模式，进一步放大了它的落地优势。从过往的投资记录可以看出，RLWRLD的投资方基本都是拥有海量线下场景的产业巨头，投资的同时直接开放自有业务场景，提供落地试点和真实业务订单。企业不用耗费大量成本开拓市场，从成立初期就拥有稳定的数据来源和收入场景，一边落地项目、一边迭代模型，形成持续的正向循环。

同时公司聚焦算法大脑研发，不涉足重资产的硬件制造，资金和人力全部集中在模型优化和数据体系搭建，资金利用效率更高，商业化节奏也更稳健。

多重因素叠加，让这套深耕垂直场景的实景视频路线，在日韩市场形成了可落地、可变现、可迭代的完整商业路径。

重新审视技术选择与行业争议

RLWRLD用大量产业落地证明，视频预训练具备真实的产业价值。只是市场对这条技术路线的认知，长期被另一种更轻量化、更低成本的训练范式干扰，也因此产生了巨大的行业分歧。

和韩国企业深耕实景视频的路径不同，国内物理AI赛道诞生了另一套主流打法，以全网公开视频预训练为核心底座。其中，千寻智能是这条技术路线成长最快、关注度最高，同时争议也最集中的头部企业。

千寻智能由前珞石机器人CTO韩峰涛与伯克利背景算法专家高阳联合创立，成立两年间快速跻身国内具身智能热门创业公司。公司核心技术逻辑，与RLWRLD同属视频驱动的物理AI体系，但取舍完全不同。

千寻依托全网海量公开视频完成模型通识预训练，再通过自研穿戴设备、工业遥操作数据做场景微调，走软硬件全栈自研路线，自研人形机器人整机，重点落地国内动力电池、高端制造等工业场景。

一韩一中、一实景一全网、一纯算法一全栈硬件，两条同源却完全反向的路径，刚好构成当下视频预训练赛道的两大样本。结合国内产业环境来看，千寻智能的路线选择，存在充分的本土化合理性。

国内制造业品类繁杂、场景高度碎片化，工厂需求普遍呈现小批量、多品类、快迭代的特征，行业不存在统一标准化的作业流程。如果照搬RLWRLD逐场景、逐岗位采集实拍视频的模式，整体成本过高、扩张速度缓慢，很难适配国内工业市场的体量与复杂度。

依托全网公开视频做底层预训练，是国内机器人企业性价比最高、扩张效率最快的冷启动方式。可以快速让模型积累通用世界认知，适配五花八门的工业非标场景，快速产出标杆落地项目。

同时千寻并未完全依赖外网数据，通过自建真机数据体系补足场景偏差，叠加国内完善的机器人供应链优势，全栈自研模式也保留了长期硬件量产的增长空间。

不过对照RLWRLD成熟、稳定、可持续变现的商业路径，千寻智能路线的短板也十分突出，这也是行业质疑声持续存在的核心原因。

全网视频的数据属性，决定模型擅长泛化试水，很难在单一行业沉淀深度、标准化的作业能力。最终呈现出试点项目数量多、规模化付费落地少的现状，长期缺少稳定现金流支撑，高估值容易积累泡沫争议。

外网视频自带的视角偏差、画面噪声、人机躯体错位问题，始终无法彻底根除。复杂工业场景、高精度柔性作业中，机器人依旧需要人工远程干预辅助，自主稳定性和实景训练路线存在明显差距。

与此同时，全栈自研模式让公司同时承担算法、硬件、大规模数据团队的高昂成本，整体烧钱速度更快。但整机量产节奏偏谨慎，商业化兑现周期更长，在资本市场整体趋于理性的当下，后续需要更快的落地成果印证技术价值。

上一篇：约 1000 行代码搭起网页 AI 智能体：微软 Webwright 让 GPT-5.4 跑分提升 ...

下一篇：阿里云面向海外发布Qwen Cloud及MuleRun

返回列表

热文阅读

2 天前

华为新封装技术打造122TB SSD：规避3D NAND芯片制裁

2 天前

消息称铠侠计划 2027 年量产 BiCS10（332 层）3D NAND 闪存

2 天前

信用刷爆！OpenAI 1800亿造芯野心，卡在微软1个采购合同上

2 天前

梁文锋与DeepSeek的十万亿美元棋盘

2 天前

“DeepSeek崩了”再次登微博热搜

2 天前

苹果iPhone 17系列领跑全球Q1畅销榜；人形机器人也有“身份证”

2 天前

中国营收占20%！AMD苏姿丰：未来5年CPU年均复合增长率达35%

2 天前

荣耀 600 系列手机现身中国电信终端产品库：超级版 / Pro 款、搭载 8000mAh 及以上容量电池

2 天前

华硕 ROG 幻 16 Air、枪神 10 Plus 超竞版新增 RTX 5090 版本，42999~59999 元

2 天前

国内单体最大智能组串式储能电站落地内蒙古包头

上一篇：约 1000 行代码搭起网页 AI 智能体：微软 Webwright 让 GPT-5.4 跑分提升 ...

下一篇：阿里云面向海外发布Qwen Cloud及MuleRun

Just Quick Just Quality

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们