春晚之后,2026年国内两大科技主线已经明确:
巨头之间的AI(大模型)之战,创业团队之间的具身(机器人)之战。
其中更为性感的、也更为产业所热议的,自然是后者,具身机器人之战,尤其是2026年正在成为具身机器人从“量产”到“落地”的关键一年。
仅仅是在开年这一周时间里,就出现了五起大额融资——千寻智能两轮近20亿元融资,智平方超10亿元B轮融资,银河通用25亿元A+轮融资,松延动力近10亿元B轮融资,以及优理奇3亿元股权融资。
经过这一轮资本加持,国内具身智能赛道已经跑出至少7家百亿级独角兽企业:宇树、智元、银河通用、星海图、智平方、自变量、千寻智能。
然而,在具身机器人经历了第一波量产尝试后,在市场热情再次被燃烧起来之时,整个产业更需要反思的是:
2025年,在第一波具身机器人量产过程中,暴露出了哪些问题?
2026年,在又一波具身机器人落地浪潮下,有哪些确定性瓶颈和趋势?
就这两个关乎具身机器人产业未来走向的问题,我是在近期举办的人形机器人与具身智能标准化年会上,听到了一场含金量极高的对话,参与这场对话的均为国内具身领域头部机构的从业者——
智源研究院院长王仲远、星动纪元创始人陈建宇、星海图创始人高继扬、清华大学教授汪玉、自变量机器人创始人王潜、众擎机器人创始人赵同阳、帕西尼创始人许晋诚、加速进化创始人程昊,以及它石智航首席科学家丁文超。

从这九位具身机器人头部机构从业者的深入研讨中,我们找到了上述两个问题的些许答案。
问:具身机器人量产过程中,最难啃的“骨头”是什么?
陈建宇:量产过程中,我们认为有两个比较大的问题:
第一,“一致性”问题。
因为机器人链条很长,从供应链、零部件,到整机、系统、算法,每个环节都可能出现一些小的变量影响一致性。
例如,我们之前遇到过这样一个问题:
同一批次造出的人形机器人,有几台走路走得总是不好,后来查了半天发现,工人在电机组装的打胶水环节中,有几台打得不太好,这种问题在实际生产环境中并不少见。
后来的解决方案是,我们设置了多层关卡和闸门,一层层把风险排除掉。
第二,因为具身机器人这类产品太新了,我们往往无法提前考虑到所有问题,特别是在我们自己小批量内测时,可能会存在没有考虑到的问题。
例如我们之前有一款在售产品,推出一段时间并没有出现任何问题,后来我们一位大客户,买的量比较多、用得比较久,使用场景也比较重,在他们使用过程中,出现了一些我们完全没有预料到的问题。
这样的问题是目前难以避免的,但是我们可以做两件事情:
第一,快速迭代, 遇到问题后,快速想办法把问题分析解决掉;
第二,形成经验“错题本”,不断积累,避免下次出现同类问题。

高继扬:整机和智能的联动是一个很重要的问题。
我们通过生产、工艺能够保证一定的一致性,但最终发现,每台机器人之间依然存在细微差异,加上基础模型之后,这些细微差异就会被放大。
这就需要有一个标定的过程,将整机中的各种传感器、机械结构,在一个统一的数学空间中做出标定,并与模型完成联动。
基于此,不仅整机有量产,智能也有了一个量产的过程,中间的联动就靠标定,这是在机器人或者具身智能量产过程中,比较独特的问题。
王潜:两位讲的都是我们所能控制的部分,在我们自己的生产、标定当中,依然存在一部分我们自己控制不了的部门,就是供应链问题。
我印象特别深刻的是,有一次我们有一个电机,老是出现一些不规则的、难以预测的损坏情况,我们当时觉得很奇怪,为什么在我们友商那里,用同样的电机,他们没有碰到这样的问题。
后来我们发现,因为大家使用的工况不同,友商使用的是比较常见的工况,供应商针对这个工况做的优化比较好,我们虽然也在供应商标定工况之内,但是可能供应商有点偷懒,没有把那部分的测试和优化做好。
这也凸显出了标准工作的重要性,如果我们有一套足够完备的标准,能够把这类情况规范起来,就可以避免这类问题发生的。
但是目前阶段,还是不可避免地会走一些弯路,依然需要我们不断积累,在各类环境中大量使用和测试,包括量产,才可能让这些问题暴露出来,这是产业链一个发展过程。

赵同阳:首先,关于量产,我们要有一个清晰的定义。
从去年到现在,人形机器人数千台规模的出货量,相较于汽车行业而言,只能算是“小批量试产”。
相对于百年的汽车行业而言,机器人现在所处的阶段还远未到量产阶段,这是一个事实。
这其中,供应链的发展也还远未达到量产阶段。
像汽车,从轮胎、减速器,到玻璃、方向盘,每一个零部件都有几十家,乃至上百家成熟的供应商,经过近百年的发展,而机器人行业,尤其是人形机器人行业,只是在近两三年才得到高速发展。
从机器人的供应商来看,目前可选的并不多,质量也还在一起探索阶段。
另外,这个行业到目前依然处于快速发展阶段,产品迭代很快,这使得像模具的生产制造,大家都不敢放开手去做。
由于行业发展非常快,一个产品可能只有1-2年的竞争力,假如企业备了几十万台的货,有可能在下次竞争中就会被淘汰,导致企业出现大量库存,这就使得我们和供应链厂商都不敢大规模进行产品量产,也就导致整个供应链会有一点卡滞。

此外,小型人形机器人和大型人形机器人的标准要求也不一样,小型人形机器人运动能力对机械强度等方面要求不是特别高,但大尺寸人形机器人要又蹦又跳,要承受10g-20g的加速度,还要保证齿轮不断裂,需要从仿真到设计上慢慢验证。
有些东西甚至无法仿真或设计出来,只能测试出来,这些都是我们整个行业在现阶段要去解决的问题。
丁文超:大家讲的很多是关节的、控制的一致性,我们遇到的一个问题是,如何保证大脑、小脑以及本体协同的一致性。
例如机器人要送去进行作业,机器人全生命周期的各种动态性能,包括力触的感知都是动态变化的,但企业发布的其实是“本体+模型”,如何保证大脑也具有一致性、量产性,其实是我们现在正在解决的问题。
这个问题不仅仅是一个硬件问题,还有很多大脑层面的训练、数据使用技巧都可以加进去,让机器人在整个生命周期,无论遇到怎样的损耗、老化,都可以保持模型的泛化能力。
问:2026年,要让机器人真正具备泛化能力,并在各个场景中发挥价值,还需要在哪些方面进行突破?
王仲远:过去这几年机器人之所以受到如此高的关注,不仅是因为硬件的发展,也是由于人工智能,尤其是大模型的突破,为具身智能带来了新的变数。
具身智能和传统的大模型相比,它需要和硬件耦合在一起,不像纯数字世界,可能大模型本身可以直接发挥价值,但具身智能既需要有模型能力本身的提升,又要依赖硬件,复杂性更高。
具身智能现在依然非常缺乏高质量数据,这就要求具身智能的数据除了从互联网仿真环境中获取以外,一定要有真机数据。
当然,这些真机数据如何高质量、标准化地获得,这就是标委会可以重点推进的一些事项。
展望未来,尤其是今年,我觉得可能分两部分:
第一,就企业实际落地来看,我相信依然会以VLM+VLA,或者纯VLA为主,在具体的场景中做数据闭环打磨;
第二,就科研角度来看,会将重心放在世界模型,放在推进下一代真正具备泛化性的具身智能模型。

陈建宇:2026年,我们有两个重点:
第一,数据闭环。
经过过去两年的发展,端到端VLA模型的一些范式已经开始标准化,这时,提升数据质量就成了提升模型能力最高效的途径。
第二,模型范式的提升。
当前比较标准的VLA模型主要是基于模仿学习的范式,如何为机器人建立更好的理解物理世界的模型,帮助机器人更好、更范化、更精细地完成各类物理世界中的任务,这也需要进行范式的探索。
高继扬:现在看机器人大脑这件事,主要分为三部分:
数据的形态、预训练怎么做、后训练怎么做。
预训练,去年大家都在做VLA,今年明显的趋势是往世界模型在走,这是一个确定性的趋势;
后训练,去年主要是SFT的模仿学习微调,今年明确在向强化学习方向去走;
数据形态,现在具身智能有很丰富的数据形态,从传统的遥操作数据,到UMI数据,再到我们最近和英伟达有一个基于EgoScale框架的合作,是用POV数据观测自己的双手怎么去做,没有佩戴任何其它辅助设备,也有很好的预训练效果。

这三个方面,都会在今年有集中的体现。
汪玉:从算法发展的角度来看,后训练是从SFT向IL(模仿学习)、RL(强化学习)的方向走。
现在如何做强化学习,特别是如何将现有算力高效地用于强化学习,这是在云端要考虑的问题。
边端如何让机器人在百分之七八十准确率的情况下,进一步通过真机的强化学习能够将特定认为的准确率提升到99%,乃至100%,这是今年重点要突破的。
此外,就具身数据而言,数据的“量”很重要,“质”也很重要。
特别是针对数据的“质”,我们看到,做真机强化学习时,实际场景中没有做好的数据如何回流,如何加入到典型数据中,让机器人能够不断学自己做不好的事情,我觉得是一个关键问题。
王潜:模型架构本身是一个大的方向。
两年前,还有很多人在做单点任务的小模型,去年大家开始去做VLA,今年大家开始做世界模型。
整体上是在往越来越统一、越来越全能的方向发展。
但是我们看模型的输出,有输出动作,有输出世界模型对于未来状态的预测,但其实我们希望模型学到的倒不一定是这些东西,我们更希望模型学到一些物理世界的规律,例如物体的属性或者更加本质的东西。
其实我们自己认为,VLA模型、世界模型并不是相斥的关系,它们在更大框架下是相互帮助,所以我们提出了物理世界基础模型,这个词让大家稍微有一点费解,后来我们把这个词改成了世界动作模型。
我们的看法是,不同任务之间的相互协同是具身模型非常显著的特点。
不同时间的任务,互相之间有大量本质性交叉,这是基于预训练基础模型架构的一个大的发展趋势。
当然中间会有百花齐放,有的团队更注重世界模型,有的团队更注重动作的训练。
另一方面,最近两年后训练获得了很大的进展。例如很多团队已经能够在某些单点场景上做相当优秀的后训练,特别是强化学习,能够获得非常不错的、前几年做不到的一些效果。

这很大程度依赖于预训练模型的发展,不管是在具身模型上,还是之前在语言模型上看到的明显特点,如果预训练模型没有很好的基础,强化学习效果会很差。
关于数据,我看到的一个大趋势是,数据生产逐渐从单点的known-how转向工业体系。
之前大家对于数据的理解是在一个地方有一个口传心授的秘诀,另外一个地方有单点的模型进行处理,但是现在整体的趋势是,数据越来越向工业化的方向发展。
我们正在以一个完整、可控制、可大规模复制的方式去生产数据,我们也有成体系的 benchmark或模型闭环,这也是我们自己会非常重视和大力度投入的方向,基本上是这样。
赵同阳:早期我们把人形机器人当成一个工具去使用,看重的是机器人的工具属性,工具要做的就是足够快、足够精准、失败概率足够低,我们自己内部也在用世界模型、强化学习让它的失败概率更低一些。
但是人类已经有很多工具,还在乎多一种新的工具吗?
除了工具属性,接下来人形机器人会带来更多情绪价值。
我们赋予它“双眼”,让它能看清这个世界,赋予它“双耳”,让它能听懂这个世界,赋予它“触觉”,让它能够感知这个世界……
既然赋予了它这么多能力,我们希望它不仅能为人类带来工具属性的价值,还能带来情绪价值,世界模型的使用,包括情绪、情感、喜怒哀乐,我们要将它做得至少像一个人,而不仅仅是一个机器。
此外,具身机器人大脑的模型还完全没有收敛,每一家都有自己的做法,每过一两个月都会有新的算法出现。
它不像做腿足运动控制,现在已经能跑能跳,很多东西几乎已经超越人类现有水平,而现有的VLA模型很多还处于探索阶段,模型能力只能达到人类的1/3、1/4 ,甚至更糟糕的状态,我们也正在尝试解决这个问题。
许晋诚:我们一直尝试在做的就是泛化的定义,我们押注在与物理世界接触模态信息上,只有这些信息,才能提升整体任务的成功率。
我们在机器人实验中,加入了大量接触模态的传感器,例如触觉传感器,它可以让基于Pi0这样基座模型的一个任务的执行成功率,从20%提升到90%以上。
这很大程度上提升了任务执行的成功率和泛化性,这是我认为具身机器人未来很重要的一个发展方向。
物理接触模态的数据也很重要,我们现在也在把大量接触模态的多维触觉数据采集下来,这对提升整体任务的成功率很重要。
程昊:我们认为具身大脑是前期研发需要投入比较多的地方。
在整体路线变得越来越清晰的情况下,我们更侧重于在现有双足人形机器人上,尤其是在机器人全身运动已经越来越成熟,可能今年在很多任务执行上能够超过人类的情况下,现有的具身模型或VLA到底引入哪些新维度的数据,模型通过强化学习,还是更多模态的方式,能够在双足人形上有更好的效果提升,这是接下来两年我们在具身大脑上重点投入的方向。

丁文超:数据和模型是我们成立第一天起就开始解决的问题,我们公司第一天就提出了一个概念,叫作“以人为中心的数据”。
遥操作是通过VR/AR设备把动作映射到机器人上,让机器人去完成,而我们的想法是,通过可穿戴式设备,让人去做数据采集任务。
我们设计了一整套数据采集套件SenseHub,你可以佩戴第一人称的摄像头、穿戴手套,也可以佩戴二指指套,多种不同的终端。
这样一套数采设备很 大的好处真正能够深入到各行各业,所以我们现有数据不仅局限于数采中心,我们在真实场景下的各行各业,大家能想到人能去的场景,我们都能采到数据,这对于整个模型的泛化能力的提升非常关键。
在模型侧,我们有一个落地任务,它是一个长程、柔性、高精度的任务,这是这代具身智能需要解决的问题。
我们发现,在现在的世界动作模型落地过程中,关键在于如何将对世界的预测和动作有机结合起来。
现在很多世界模型单纯把它引入到VLA,很容易产生幻觉问题,对空间的幻觉、物理的幻觉会直接影响机器人最终执行的动作。
如何让机器人的物理感知,对物理的推测、对空间的推测没有幻觉,能够稳定可靠执行任务,这是过去这一年我们一直在解决的问题。
