AI的发展阶段是先专用化,再通用化,然后在通用的基础上进入一些最具价值的细分场景。
相比上一个时代人脸识别,语音转录都需要训练专有模型,现在通用全模态模型就可以完成各种复杂任务;将通用模型进行针对性后训练,又能在医疗,法律,客服等特定场景表现突出。
在物理AI领域,上一个时代的工业机器人,清洁机器人们都只能在特定场景工作,无法泛化到通用场景;尤其无法在非常规环境中完成多种复杂任务,所以家用人形机器人进入实际应用,还比较远。
但已经有一些具身智能公司,试图让物理AI走入通用时代,例如Skild AI,它打造的是一个“全具身 (Omni-bodied)”大脑Skild Brain。在它们的愿景中,这个大脑可以用在任何形态的机器人上,并能完成任何类型的任务,使机器人拥有跨任务、跨硬件形态的通用泛化能力。

来源:Skild AI
此前,Skild AI在2024年获得了3亿美元A轮融资,近日,它又完成了14亿美元的B轮融资。此轮巨额投资由SoftBank领投,NVentures (NVIDIA)、Macquarie Capital以及Jeff Bezos跟投,将公司估值推至140亿美元以上。
Lightspeed、Felicis、Coatue和Sequoia Capital等头部VC以及LG、Schneider、CommonSpirit和Salesforce Ventures等多位战略投资者也加入其中。
Skild AI的两位创始人Deepak Pathak(CEO)和Abhinav Gupta(总裁)在过去10年引领了机器人领域一系列重大突破,他们共同拥有超过110000次论文引用。
Deepak Pathak是CMU机器人研究所助理教授(AP),Abhinav Gupta是CMU机器人研究所终身教授,FAIR Robotics创始成员与研究负责人。
他们相识十年后,于2023年双双离开CMU,投身具身智能创业,并组建了由Meta、Tesla、NVIDIA、Amazon、Google以及CMU、斯坦福大学和加州大学伯克利分校等高校的机器人和人工智能专家组成的顶尖团队。

Skild AI核心团队(来源:Skild AI)
上一世代的机器人公司,往往采用的是定制化解决方案,这些方案只能打造出适应特定任务的专用机器人,无法泛化。
Skild AI它们致力于打造面向真实世界的通用人工智能 ,他们的机器人大脑Skild Brain要具备跨任务和跨机器人硬件的泛化能力。
它无需预先知晓机器人的身体形态,即可控制任何形态的机器人,涵盖四足机器人、人形机器人、桌面机械臂及移动操作机器人。
它赋予机器人处理各类事务的能力,从简单的家务琐事(如清洁、装填洗碗机、煎蛋),到对物理性能要求极高的挑战(如在湿滑地形中通过)。只要是能动的机器,Skild Brain就能驾驭。
这种跨形态的训练不仅解锁了海量数据,更显著提升了模型应对硬件变更或故障的鲁棒性。
构建机器人基础模型面临的最大挑战,在于缺乏大规模的机器人数据。更糟的是,利用硬件采集真实世界数据不仅缓慢,且成本高昂。
一些公司会基于现有的视觉-语言模型 (VLM),然后掺入不足1%的真实机器人数据,来构建“机器人基础模型”。但这种模型缺乏真正经过物理世界验证的物理常识,也很难适应真实物理世界。它们能够表演侧空翻、后空翻、舞蹈动作,但是却不太能可靠地攀爬各类楼梯或应对高难度的障碍物。
因为爬楼梯需要视觉感知与运动控制之间极度精细的协同。机器人必须与楼梯的物理结构进行精确交互,并针对台阶高度和几何形状的差异进行动态调整。
Skild Brain采用分层架构:上层是低频运作的操作与导航策略;下层则是高频响应的底层动作策略。
作为核心驱动力,底层的单一神经网络能将上层的宏观指令,实时转化为驱动躯体的精确关节角度与电机扭矩。这种设计让机器人彻底告别了繁琐的路径规划、建图或手动模式切换,在平地行走、爬楼梯和越障之间实现如本能般的无缝流转。
本质上,它是完全由在线视觉和本体感觉驱动的端到端运动控制。
现实世界的部署对可靠性有着苛刻要求。Skild在验证模型时,把它带入了真实世界,包括城市公园和街道,爬上防火梯,翻越各类障碍,这个环境中还包括不稳定托盘、缝隙、不均匀台阶及杂物等障碍。

来源:Skild AI
Skild Brain利用摄像头感知的图像,对机器人周遭场景做出毫秒级动态反应。这使其能够根据最新的观测结果本能地适应新地形。用户(或Skild Brain的上层策略部分)只需给出一个大致方向,机器人便能自行摸索避障路径。面对从未见过的环境,机器人无需预设动作,即可实时调整落脚点、平衡与时机,灵活应对各类未知障碍。
例如,搭载Skild Brain模型的机器人,在面对不均匀台阶时,即便台阶深度仅比机器人的脚长多出3厘米,机器人也能将脚精准地落在正确位置,而且更进一步,机器人还能在非平坦表面上负重,例如搬运箱子上下楼梯。
要让机器人能够适应真实环境,并且具有通用性,就要打破以往机器人运动控制,控制器仅针对特定机型进行训练的传统模式,这本质上是让机器人“死记硬背”,针对特定场景或环境“过拟合”。
所以,Skild为Skild Brain设计了无法“投机取巧 ”的测试环境,并使用了特殊的训练方法。
方法一是让AI学会控制包含各种不同躯体的“机器人多重宇宙(包含 10 万种不同机器人形态)”,而不再是单一机器人。这样,它就无法“背诵”针对某一副躯体的特解,必须找到一种通用的生存策略。
另一个方法是让模型在失败中学习。Skild将大语言模型的“上下文学习 (In-context learning)”引入了物理AI领域,这是通用性的基石之一。
具体来说,Skild让机器人处于各种非常规的环境或状态,例如将机器人的小腿截去,仅保留大腿,以此模拟肢体缺失;通过软件锁定机器人的膝关节来模拟关节故障;在无预警的情况下卡死机器人的轮子;在机器人的腿上加装高跷,使腿身比超出了训练时的认知。
面对这些情况,Skild Brain模型驱动的机器人,可以经过短暂的适应后,找到解决方法。
在模拟关节故障这个例子中,实际上是将四足机器人变成了一个从未被训练过的“三足”机器人。机器人起初向前倾倒,但很快学会将重心后移至三条腿上,经过2-3秒的适应后甚至能行走。
可以这么理解,模型在遇到陌生的情况后,会一次次尝试,然后将前一次的尝试作为“提示词 (prompt)”输入,直到成功适应环境。
在使用“上下文学习 ”训练后,模型能够实现零样本运动控制,甚至适应极端的形态变化。
Skild构建了庞大的数据基础设施,Skild Brain能够从四大来源进行学习。
在预训练阶段,它能从大规模仿真数据和互联网视频中学习。通过观看人类视频进行学习,是解决具身基础模型数据的规模和多样性缺乏的重要来源。
事实上,第一人称视角的头戴式摄像机画面,在互联网上数量庞大,但它并非“机器人原生 (robot-native)”的格式。
用于机器人的视频数据面临信号缺失和具身鸿沟两大痛点。信号缺失指的是视频无法显示底层的力、扭矩或触觉反馈;具身鸿沟则指人的肢体与机器人的形态截然不同,将人类动作映射为机器人的“驱动”指令,是一个巨大的“翻译”难题。
Skild的模型具有跨越具身差异的核心能力,这使机器人能直接从视频演示中习得新技能。在实验中,仅需通过观看视频以及极少量的机器人数据(少于1小时),即可对模型进行微调,使其掌握新技能。
在后训练阶段,则有遥操作和真实世界部署两种方法,Skild的机器人已广泛部署于安防、建筑、配送、数据中心、仓库及工厂组装等多个领域。这些部署持续为后训练生成更多数据。
在2025年,Skild AI实现了规模化的营收增长,它们在点对点配送、安防、数据中心以及制造业仓库等场景部署机器人,仅几个月内,营收增长到3000万美元。不过他们对于应用场景的终极目标是家庭消费级市场。
大语言模型目前已经跨过了通用性的鸿沟,有了数亿用户的标杆消费级应用(ChatGPT),并进入了千行百业创造价值。
具身模型,现在开始跨越通用性门槛,Skild AI已经初步创造出能够跨机器人形态,能够适应各种任务的具身基础模型。
而且通过将“上下文学习”引入物理AI,提升了各类机器人对于新技能和新任务的学习成本,在应用上,降低了进入新应用场景的成本。
但是无论是具身基础模型还是大语言模型,现在都还面临一个问题,就是无法通过学习,自我迭代。AI模型的每一次大的升级,都需要重新训练一次模型,这个迭代的成本很难降低,也就使得AI与移动互联网时代相比,商业模式较难成立。
不过,我们还是期待“物理AI”智能在未来进入成熟期,追上大语言模型的进度。一旦进入这个阶段,物理AI的应用范围将大幅拓展,创造的价值指数级提升。
