2026年开年以来,AI圈出现了一个热词——“物理AI”。
黄仁勋在年初的CES展会上多次提到,“下一波AI浪潮将是在物理世界中运行的AI”,孙宇晨也在近期高调宣称:“虚拟AI红利已尽,物理AI才是未来三年最大的机会。”
在产业端,明星公司Figure AI以一场不间断五天的机器人分拣直播引爆全网,国内智元机器人宣布第10000台通用具身机器人下线……
大佬们的发言与具身智能的真实变化,让行业的目光都投射到到这场从虚拟智能跨入实体执行的宏大叙事中,然而很多人心中还是有疑问,这所谓的“物理AI”到底是技术发展的必然拐点,还是包装精妙的概念换血?
在回答以上问题之前,我们先来拆解一下这个略显生硬的专业术语。
物理AI,从字面上理解,就是把AI与物理世界深度融合的人工智能技术,但深入内核来看,虚拟AI负责“思考与沟通”,物理AI则必须“感知并行动”,这样一来,它就不再是屏幕里的智能体,而是要让机器在真实物理世界中感知、理解和执行复杂操作。
翻译过来,物理AI是一种“使自主机器(如机器人、自动驾驶汽车等)在真实物理世界中感知、理解和执行复杂操作”的技术。中国计算机学会执行委员王翔在第三届中国国际供应链博览会上系统阐述了这一概念,“物理AI意味着AI系统具备在真实世界中‘感知—推理—行动—反馈’的闭环能力。”
说白了,以前的AI是“会聊天”,现在的物理AI是“会做事”,当AI走出ChatGPT对话框,进入到现实世界的工厂、仓库和家庭,这就是物理AI要解决的问题。
这一差异在今年两家明星机器人公司的动态中体现得尤为明显。
一个是美国的Figure AI,用连续5天的直播来证明“机器人真的能干活”,直播是从5月14日开始的,直播内容是,3台Figure 03人形机器人轮番在产线上分拣快递包裹,机器人的任务是检测条形码、抓取包裹,重新调整方向,把条码朝下放到传送带上。
在直播过程中,一台机器人连续工作超过33小时,处理了4万多个包裹,创始人布雷特·阿德科克(Brett Adcock)表示,机器人采用的是公司最新的Helix 02模型,以“完全自主模式”运作。
Figure AI直播的意义不仅在于展示自己的技术能力,更在于用实时画面告诉全世界,物理AI技术已经越过了“实验室演示”的临界点,一家公司在产线上实况直播机器人持续工作几天也没有出现重大问题,这本身就是一次强有力的技术宣言。
中国的智元机器人同样也做了一场类似的直播,将旗下的智元精灵G2放到南昌龙旗科技产业园的平板产线MMIT(多媒体集成)与人类一起干活,直播的实测数据显示,机器人8小时连续作业零重大异常,整体作业成功率高达99.5%以上;单道工序仅需18-20秒,每小时可完成310件产品,一台机器人即可承担双工序工作量。
与Figure AI更进一步的是,智元机器人还在3月份官宣了全球首个通用具身智能机器人实现了1万台下线交付,从2025年12月到2026年3月,仅用了三个多月便实现了从5000台到10000台的跨越。
在交付数量之外,智元机器人透露,公司计划2027年营收达到100亿,如果用过往新能源、自动驾驶或者芯片这类前沿产业的发展经验来看,一个成立不到两年的公司,能够实现万台级别量产交付,并定下百亿营收目标,这在硬科技领域可以称得上现象级。
上述两家公司用实打实的的数据和场景,证明了物理AI不再需要依赖遥控或者预设脚本来“表演”,而是具备了在真实环境中自主完成复杂任务的能力。
更关键的是,智元率先迈过万台交付门槛,将量产能力与在手订单绑定,表明这一赛道已经出现了从“技术验证”到“商业兑现”的转折。换句话说,物理AI的“可行性”不再是疑问,真正的竞争已经进入了“可用性”与“经济性”的深水区。
那么,现在问题来了,物理AI为什么在今年就突然爆发了?如今复盘,除了真实的商业化需求之外,其背后一连串的技术突破成了最大推手。
首先是大语言模型(LLM)为机器人带来了“理解能力“,传统的机器人依赖确定性代码和规则编程,相当于工程师预先写好“剧本”,机器人每一个动作都按照“剧本”的预设要求严格执行,这种模式存在一个极大的漏洞,就是机器人工作的环境稍有变化,代码就要重写,鲁棒性不强,很难迈过商业化的门槛。
然而随着谷歌尝试将LLM与机器人物理执行进行结合,并在2023年8月先后推出Google PaLM-E与RT-2等具身多模态大模型后,这使得让机器人能够通过自然语言指令将复杂任务自动分解为若干步骤并执行,大语言模型从此完成了从“对话理解”到“物理执行”的能力跨越。
黄仁勋在CES 2026的演讲中指出了这一技术进化的本质:物理AI实际上是一场底层控制权交接,当物理AI通过了技术进化的临界点,控制权从人类编写的确定性代码移交给了具有泛化能力的、理解物理规律的神经网络。
到了这个时候,机器人不再只是“执行代码”,而是拥有了“理解指令并自我规划动作”的能力。
如果说大语言模型解决了“听懂”的问题,那么世界模型则解决了“在物理世界中行动”的问题,世界模型的核心就是让AI学会一套对物理世界运转规律的内部理解。
英伟达在去年CES上发布的物理AI世界基础模型平台Cosmos成为标志性事件,该模型的核心能力是能够从文字或图像生成符合物理规律的动作数据,开发者可使用Cosmos加速智能汽车、机器人和视频分析AI智能体的物理AI开发。
据英伟达介绍,Cosmos基于超2000万小时真实数据训练,极大程度降低了模拟仿真与模型训练的难度,有了世界模型,AI系统就能在虚拟环境中进行海量模拟演练,再将其迁移到真实物理世界。
机器人的终极能力不是“看懂”或“听懂”,而是“做对”,Vision-Language-Action模型的出现则让机器人能够同时处理视觉输入、语言理解和动作控制,从而实现“看到即做到”的闭环。
DeepMind在去年9月发布了新一代多模态具身智能大模型Gemini Robotics 1.5,宣称这是全球首款专为具身推理优化的思考型模型;英伟达则推出了专为人形机器人设计的开源模型Isaac GR00T N1.6,可解锁全身控制。
与此同时,北京人形机器人创新中心开源了具身小脑大模型XR-1,该模型成为国内首个符合具身智能国家标准的模型,基于超过一百万的数据进行训练,能够完成取放、推拉、旋转等复杂的双臂操作任务。
至此,物理AI“集齐”了落地所必须的基础支撑技术能力,LLM让机器“听懂”人类意图,世界模型让机器“预判”物理后果,VLA则打通了从“看懂”到“做对”的最后一公里。三者叠加,使得机器人第一次具备了在开放环境中自主执行任务的基础能力。
当然,灵巧操作目前还存在瓶颈,双臂、双手的精细控制仍然有诸多问题还待解决,换句话来说,物理AI拿到了“进工厂干活”的入场券,但要真正“走进家庭端茶倒水”,还需要跨越从“粗放动作”到“精细化操作”的质变之坎。
理解物理AI的过去与现在很重要,而现在,具身智能行业需要面对的问题是,接下来的竞争将围绕哪些核心维度展开?
我们从自动驾驶的发展经历来总结经验,数据之战自动驾驶没有绕开,与自动驾驶有着相似逻辑的具身智能同样也无法绕开,一般来说,谁拥有更高质量的训练数据,谁就拥有话语权。
如今在行业中,英伟达率先用Cosmos奠定了世界模型的壁垒,其基于超2000万小时真实数据训练的模式难以被快速复制,而智元完成了1万台机器人的量产部署,这意味着它拥有了真实的、反馈驱动的数据采集能力,这在行业内也被广泛视为一种数据护城河。
需要指出的是,物理AI竞争所需要的数据不是单纯的比谁的量大,而是需要合成数据与真实数据的协同。
单纯依赖真实数据会面临规模难题和硬件损耗成本问题,过度依赖合成数据则存在模拟到现实(sim2real)的迁移鸿沟,北京人形机器人创新中心的“跨数据源学习”方案就是在这一思路下的产物,让机器人能够利用海量人类视频进行训练,大幅降低训练成本同时提升训练效率。
这样就很好理解了,未来谁能真正打通“合成数据训练-真实数据微调-实际场景反馈”的完整闭环,谁就能在这场竞赛中占据制高点。
解决了数据问题之后,如何将物理AI与虚拟AI高效融合,成了物理AI能够更进一步的关键。
我们现在谈物理AI,经常忽略的一个方向是,物理AI与虚拟AI并不是对立的,从技术架构来看,一个完整的物理AI系统大致可以分为三层:底层是感知层(传感器、视觉识别),中层是认知决策层(AI推理),上层是行动执行层(机械控制)。
虚拟AI主要负责中间层,而物理AI需要打通从感知到执行的完整链条。
英伟达的“芯片+模型+工具”全栈方案就是这一思路的体现,Jetson Thor边缘计算平台提供算力,GR00T模型提供智能,Isaac平台提供开发工具链,对照着这一解决方案,未来谁能将软硬件的深度融合做好,不光能够完成物理AI从“大脑”到“肢体”的闭环,还能建立起自己的技术护城河。
最后一点就是物理AI的商业化进程,在三年前,资本对机器人赛道的想象空间来自于“技术愿景”,而现在,资本市场有了更加务实的评判标准,即交付能力。
有媒体统计,2025年全年中国具身智能领域融资总额735亿元、投融资事件744起,而2026年以来又追加了超370亿元,累计突破1100亿元,但在这片繁花之下,资本的流向发生了肉眼可见的结构性转移。
2026年5月,天机智能完成10亿元B轮融资,其核心筹码是Q1在手订单突破10000台,客户覆盖45家机器人企业。
中科第五纪同期获数亿元A轮融资,同时披露已拿下海外数亿元订单。
维他动力、鹿明机器人的融资中,上汽尚颀资本、三菱电机等产业投资人相继入局,目的就是将产线产能与机器人交付能力绑定。
反观美国人形机器人初创公司Cartwheel Robotics,虽有技术愿景却无订单支撑,已于2026年3月宣告倒闭。
正反案例表明,资本不再为炫酷Demo买单,只为真实的量产交付能力付费。
物理AI的爆火看似突然,实则水到渠成。
当然,也有业内人士认为“物理AI”更多是资本市场创造的新概念包装,本质仍是具身智能和机器人技术的自然演进,但不可否认的是,物理AI的兴起清晰地标志着AI产业正从“虚拟智能”走向“实体执行”,这本身就是一个不可逆转的历史进程。
最新一轮的竞争中,Figure AI通过直播向世界秀肌肉,智元机器人以量产交付建立产业壁垒,英伟达用Cosmos和GR00T构建平台生态……而接下来的问题是,哪一家公司会成为物理AI领域的OpenAI?哪一个应用场景会最先迎来“ChatGPT时刻”?
