九位具身大佬谈：去年量产遭遇了哪些难题，今年落地仍有哪些瓶颈？ - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

九位具身大佬谈：去年量产遭遇了哪些难题，今年落地仍有哪些瓶颈？

2026-03-03 / 阅读约15分钟

来源：36kr

2026年国内具身机器人从量产到落地，面临一致性、供应链等量产难题，需突破数据闭环、模型范式提升等，以实现泛化能力并在各场景中发挥价值。

春晚之后，2026年国内两大科技主线已经明确：

巨头之间的AI（大模型）之战，创业团队之间的具身（机器人）之战。

其中更为性感的、也更为产业所热议的，自然是后者，具身机器人之战，尤其是2026年正在成为具身机器人从“量产”到“落地”的关键一年。

仅仅是在开年这一周时间里，就出现了五起大额融资——千寻智能两轮近20亿元融资，智平方超10亿元B轮融资，银河通用25亿元A+轮融资，松延动力近10亿元B轮融资，以及优理奇3亿元股权融资。

经过这一轮资本加持，国内具身智能赛道已经跑出至少7家百亿级独角兽企业：宇树、智元、银河通用、星海图、智平方、自变量、千寻智能。

然而，在具身机器人经历了第一波量产尝试后，在市场热情再次被燃烧起来之时，整个产业更需要反思的是：

2025年，在第一波具身机器人量产过程中，暴露出了哪些问题？

2026年，在又一波具身机器人落地浪潮下，有哪些确定性瓶颈和趋势？

就这两个关乎具身机器人产业未来走向的问题，我是在近期举办的人形机器人与具身智能标准化年会上，听到了一场含金量极高的对话，参与这场对话的均为国内具身领域头部机构的从业者——

智源研究院院长王仲远、星动纪元创始人陈建宇、星海图创始人高继扬、清华大学教授汪玉、自变量机器人创始人王潜、众擎机器人创始人赵同阳、帕西尼创始人许晋诚、加速进化创始人程昊，以及它石智航首席科学家丁文超。

从这九位具身机器人头部机构从业者的深入研讨中，我们找到了上述两个问题的些许答案。

01 具身机器人量产，N个“一致性”难题

问：具身机器人量产过程中，最难啃的“骨头”是什么？

陈建宇：量产过程中，我们认为有两个比较大的问题：

第一，“一致性”问题。

因为机器人链条很长，从供应链、零部件，到整机、系统、算法，每个环节都可能出现一些小的变量影响一致性。

例如，我们之前遇到过这样一个问题：

同一批次造出的人形机器人，有几台走路走得总是不好，后来查了半天发现，工人在电机组装的打胶水环节中，有几台打得不太好，这种问题在实际生产环境中并不少见。

后来的解决方案是，我们设置了多层关卡和闸门，一层层把风险排除掉。

第二，因为具身机器人这类产品太新了，我们往往无法提前考虑到所有问题，特别是在我们自己小批量内测时，可能会存在没有考虑到的问题。

例如我们之前有一款在售产品，推出一段时间并没有出现任何问题，后来我们一位大客户，买的量比较多、用得比较久，使用场景也比较重，在他们使用过程中，出现了一些我们完全没有预料到的问题。

这样的问题是目前难以避免的，但是我们可以做两件事情：

第一，快速迭代，遇到问题后，快速想办法把问题分析解决掉；

第二，形成经验“错题本”，不断积累，避免下次出现同类问题。

高继扬：整机和智能的联动是一个很重要的问题。

我们通过生产、工艺能够保证一定的一致性，但最终发现，每台机器人之间依然存在细微差异，加上基础模型之后，这些细微差异就会被放大。

这就需要有一个标定的过程，将整机中的各种传感器、机械结构，在一个统一的数学空间中做出标定，并与模型完成联动。

基于此，不仅整机有量产，智能也有了一个量产的过程，中间的联动就靠标定，这是在机器人或者具身智能量产过程中，比较独特的问题。

王潜：两位讲的都是我们所能控制的部分，在我们自己的生产、标定当中，依然存在一部分我们自己控制不了的部门，就是供应链问题。

我印象特别深刻的是，有一次我们有一个电机，老是出现一些不规则的、难以预测的损坏情况，我们当时觉得很奇怪，为什么在我们友商那里，用同样的电机，他们没有碰到这样的问题。

后来我们发现，因为大家使用的工况不同，友商使用的是比较常见的工况，供应商针对这个工况做的优化比较好，我们虽然也在供应商标定工况之内，但是可能供应商有点偷懒，没有把那部分的测试和优化做好。

这也凸显出了标准工作的重要性，如果我们有一套足够完备的标准，能够把这类情况规范起来，就可以避免这类问题发生的。

但是目前阶段，还是不可避免地会走一些弯路，依然需要我们不断积累，在各类环境中大量使用和测试，包括量产，才可能让这些问题暴露出来，这是产业链一个发展过程。

赵同阳：首先，关于量产，我们要有一个清晰的定义。

从去年到现在，人形机器人数千台规模的出货量，相较于汽车行业而言，只能算是“小批量试产”。

相对于百年的汽车行业而言，机器人现在所处的阶段还远未到量产阶段，这是一个事实。

这其中，供应链的发展也还远未达到量产阶段。

像汽车，从轮胎、减速器，到玻璃、方向盘，每一个零部件都有几十家，乃至上百家成熟的供应商，经过近百年的发展，而机器人行业，尤其是人形机器人行业，只是在近两三年才得到高速发展。

从机器人的供应商来看，目前可选的并不多，质量也还在一起探索阶段。

另外，这个行业到目前依然处于快速发展阶段，产品迭代很快，这使得像模具的生产制造，大家都不敢放开手去做。

由于行业发展非常快，一个产品可能只有1-2年的竞争力，假如企业备了几十万台的货，有可能在下次竞争中就会被淘汰，导致企业出现大量库存，这就使得我们和供应链厂商都不敢大规模进行产品量产，也就导致整个供应链会有一点卡滞。

此外，小型人形机器人和大型人形机器人的标准要求也不一样，小型人形机器人运动能力对机械强度等方面要求不是特别高，但大尺寸人形机器人要又蹦又跳，要承受10g-20g的加速度，还要保证齿轮不断裂，需要从仿真到设计上慢慢验证。

有些东西甚至无法仿真或设计出来，只能测试出来，这些都是我们整个行业在现阶段要去解决的问题。

丁文超：大家讲的很多是关节的、控制的一致性，我们遇到的一个问题是，如何保证大脑、小脑以及本体协同的一致性。

例如机器人要送去进行作业，机器人全生命周期的各种动态性能，包括力触的感知都是动态变化的，但企业发布的其实是“本体+模型”，如何保证大脑也具有一致性、量产性，其实是我们现在正在解决的问题。

这个问题不仅仅是一个硬件问题，还有很多大脑层面的训练、数据使用技巧都可以加进去，让机器人在整个生命周期，无论遇到怎样的损耗、老化，都可以保持模型的泛化能力。

02 具身机器人落地，26年如何造大脑？

问：2026年，要让机器人真正具备泛化能力，并在各个场景中发挥价值，还需要在哪些方面进行突破？

王仲远：过去这几年机器人之所以受到如此高的关注，不仅是因为硬件的发展，也是由于人工智能，尤其是大模型的突破，为具身智能带来了新的变数。

具身智能和传统的大模型相比，它需要和硬件耦合在一起，不像纯数字世界，可能大模型本身可以直接发挥价值，但具身智能既需要有模型能力本身的提升，又要依赖硬件，复杂性更高。

具身智能现在依然非常缺乏高质量数据，这就要求具身智能的数据除了从互联网仿真环境中获取以外，一定要有真机数据。

当然，这些真机数据如何高质量、标准化地获得，这就是标委会可以重点推进的一些事项。

展望未来，尤其是今年，我觉得可能分两部分：

第一，就企业实际落地来看，我相信依然会以VLM+VLA，或者纯VLA为主，在具体的场景中做数据闭环打磨；

第二，就科研角度来看，会将重心放在世界模型，放在推进下一代真正具备泛化性的具身智能模型。

陈建宇：2026年，我们有两个重点：

第一，数据闭环。

经过过去两年的发展，端到端VLA模型的一些范式已经开始标准化，这时，提升数据质量就成了提升模型能力最高效的途径。

第二，模型范式的提升。

当前比较标准的VLA模型主要是基于模仿学习的范式，如何为机器人建立更好的理解物理世界的模型，帮助机器人更好、更范化、更精细地完成各类物理世界中的任务，这也需要进行范式的探索。

高继扬：现在看机器人大脑这件事，主要分为三部分：

数据的形态、预训练怎么做、后训练怎么做。

预训练，去年大家都在做VLA，今年明显的趋势是往世界模型在走，这是一个确定性的趋势；

后训练，去年主要是SFT的模仿学习微调，今年明确在向强化学习方向去走；

数据形态，现在具身智能有很丰富的数据形态，从传统的遥操作数据，到UMI数据，再到我们最近和英伟达有一个基于EgoScale框架的合作，是用POV数据观测自己的双手怎么去做，没有佩戴任何其它辅助设备，也有很好的预训练效果。

这三个方面，都会在今年有集中的体现。

汪玉：从算法发展的角度来看，后训练是从SFT向IL（模仿学习）、RL（强化学习）的方向走。

现在如何做强化学习，特别是如何将现有算力高效地用于强化学习，这是在云端要考虑的问题。

边端如何让机器人在百分之七八十准确率的情况下，进一步通过真机的强化学习能够将特定认为的准确率提升到99%，乃至100%，这是今年重点要突破的。

此外，就具身数据而言，数据的“量”很重要，“质”也很重要。

特别是针对数据的“质”，我们看到，做真机强化学习时，实际场景中没有做好的数据如何回流，如何加入到典型数据中，让机器人能够不断学自己做不好的事情，我觉得是一个关键问题。

王潜：模型架构本身是一个大的方向。

两年前，还有很多人在做单点任务的小模型，去年大家开始去做VLA，今年大家开始做世界模型。

整体上是在往越来越统一、越来越全能的方向发展。

但是我们看模型的输出，有输出动作，有输出世界模型对于未来状态的预测，但其实我们希望模型学到的倒不一定是这些东西，我们更希望模型学到一些物理世界的规律，例如物体的属性或者更加本质的东西。

其实我们自己认为，VLA模型、世界模型并不是相斥的关系，它们在更大框架下是相互帮助，所以我们提出了物理世界基础模型，这个词让大家稍微有一点费解，后来我们把这个词改成了世界动作模型。

我们的看法是，不同任务之间的相互协同是具身模型非常显著的特点。

不同时间的任务，互相之间有大量本质性交叉，这是基于预训练基础模型架构的一个大的发展趋势。

当然中间会有百花齐放，有的团队更注重世界模型，有的团队更注重动作的训练。

另一方面，最近两年后训练获得了很大的进展。例如很多团队已经能够在某些单点场景上做相当优秀的后训练，特别是强化学习，能够获得非常不错的、前几年做不到的一些效果。

这很大程度依赖于预训练模型的发展，不管是在具身模型上，还是之前在语言模型上看到的明显特点，如果预训练模型没有很好的基础，强化学习效果会很差。

关于数据，我看到的一个大趋势是，数据生产逐渐从单点的known-how转向工业体系。

之前大家对于数据的理解是在一个地方有一个口传心授的秘诀，另外一个地方有单点的模型进行处理，但是现在整体的趋势是，数据越来越向工业化的方向发展。

我们正在以一个完整、可控制、可大规模复制的方式去生产数据，我们也有成体系的 benchmark或模型闭环，这也是我们自己会非常重视和大力度投入的方向，基本上是这样。

赵同阳：早期我们把人形机器人当成一个工具去使用，看重的是机器人的工具属性，工具要做的就是足够快、足够精准、失败概率足够低，我们自己内部也在用世界模型、强化学习让它的失败概率更低一些。

但是人类已经有很多工具，还在乎多一种新的工具吗？

除了工具属性，接下来人形机器人会带来更多情绪价值。

我们赋予它“双眼”，让它能看清这个世界，赋予它“双耳”，让它能听懂这个世界，赋予它“触觉”，让它能够感知这个世界……

既然赋予了它这么多能力，我们希望它不仅能为人类带来工具属性的价值，还能带来情绪价值，世界模型的使用，包括情绪、情感、喜怒哀乐，我们要将它做得至少像一个人，而不仅仅是一个机器。

此外，具身机器人大脑的模型还完全没有收敛，每一家都有自己的做法，每过一两个月都会有新的算法出现。

它不像做腿足运动控制，现在已经能跑能跳，很多东西几乎已经超越人类现有水平，而现有的VLA模型很多还处于探索阶段，模型能力只能达到人类的1/3、1/4 ，甚至更糟糕的状态，我们也正在尝试解决这个问题。

许晋诚：我们一直尝试在做的就是泛化的定义，我们押注在与物理世界接触模态信息上，只有这些信息，才能提升整体任务的成功率。

我们在机器人实验中，加入了大量接触模态的传感器，例如触觉传感器，它可以让基于Pi0这样基座模型的一个任务的执行成功率，从20%提升到90%以上。

这很大程度上提升了任务执行的成功率和泛化性，这是我认为具身机器人未来很重要的一个发展方向。

物理接触模态的数据也很重要，我们现在也在把大量接触模态的多维触觉数据采集下来，这对提升整体任务的成功率很重要。

程昊：我们认为具身大脑是前期研发需要投入比较多的地方。

在整体路线变得越来越清晰的情况下，我们更侧重于在现有双足人形机器人上，尤其是在机器人全身运动已经越来越成熟，可能今年在很多任务执行上能够超过人类的情况下，现有的具身模型或VLA到底引入哪些新维度的数据，模型通过强化学习，还是更多模态的方式，能够在双足人形上有更好的效果提升，这是接下来两年我们在具身大脑上重点投入的方向。