人形机器人：为何灵巧手是迈不过去的门槛？ - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

人形机器人：为何灵巧手是迈不过去的门槛？

2026-01-20 / 阅读约17分钟

来源：36kr

灵巧手是人形机器人关键部位，实现难度大。硬件难点在集成和多模态感知，软件在大模型算法和数据量。分析了硬件环节投资机会，指出灵巧手初期应用将集中在限定性场景。

上篇海豚君对人形机器人产业链各环节做了详细梳理之后，本篇重点研究一下灵巧手，海豚君关注几个关键问题：

1）探讨灵巧手为何重要？

2）灵巧手的产业瓶颈到底在哪里？

3）这些瓶颈的解决意味着怎样的风险与机会？

4）灵巧手未来的方向是什么，可能的商业化路径？

废话不多，直接上正题：

为什么要关注灵巧手？

对于人形机器人，马斯克及特斯拉曾反复强调灵巧手的难度及价值。在此前多个Optimus人形机器人的演示视频中，我们也可以看到，市场期待也是手部动作的进展。

同时，人形机器人整机厂，尤其是中国大陆整机厂商，一年多以来运动控制上炫技频频，从只会转手绢，迅速进化为跳舞打拳样样精通，动作流畅度已经让大部分人类自叹不如了。但我们是否有注意到，这些炫酷动作主要集中在身体关节，基本上没有用到手。

这当然不是手不重要，反而说明手部动作的实现难度远大于身体关节。

手有多重要呢？我们可以想象一下，一台只装了假手的人形机器人，不管身体关节如何灵活，如果它没有灵巧的双手，那么相较于轮、足机器人，甚至最普通的工业/协作机器人，也强不到哪里去。

所以手，其实是人形机器人上最关键的部位。但从产业化的角度，手的实现难度的确很大。

举个简单的例子：当人类决定用手抓取东西时，依据是什么信息呢？

首先是视觉信息，我们用眼睛看到一个物品，然后，我们可以利用获取到的视觉信息，叠加我们的思考，来判断这个东西的位置、距离、种类以及性质等。

然后我们开始实施抓取动作，在这个过程中，触觉开始发挥作用。首先，我们的手指开始接触这个物品，然后，我们通过手指的触觉神经，来获取这个物品的重量、软硬、温度以及摩擦力等信息，最后我们开始实施抓取，可以想象，对于光滑的或者粗糙的物品，我们抓取它们的方式显然是不同的。

另外，这里触觉所获取信息的精细度也与视觉不同，比如对于一根纤细的动物毛发，我们通过视觉可能很难捕捉到它，但如果用手指触摸，却能很容易感受到它的存在。

图：Optimus抓取鸡蛋及应用触觉传感器

来源：特斯拉，海豚研究

通过以上表述，我们能够简单理解灵巧手的难度了，那么要想使得灵巧手实现这样的能力，瓶颈又在哪里？

灵巧手的瓶颈在哪里？

这里我们分为硬件和软件两部分。简单来说，硬件难点在硬件集成和多模态感知融合，软件在大模型算法架构和数据量积累。

硬件角度，难点主要体现在高空间集成和多模态感知

（1）空间集成难度大

例如在特斯拉Optimus 2.5方案中，需要在极小空间内塞下20多个自由度所需要的零部件，包括电机、齿轮箱、微型滚珠丝杠以及腱绳等，且这些零部件需要满足高功率密度、高精度、高可靠性、高寿命以及低成本等要求。

（2）对感知要求高，需大量且多模态的传感器，其中难点最大的还是触觉

这里涉及到传感器，尤其是触觉传感器。关于传感器，我们在此前的人形机器人报告中谈到过，一方面需要满足高精度要求（要求数据一致性，且不能有性能漂移），一方面需要将不同知觉信息融合，那么就对多模态感知融合能力要求极高，这需要克服不同模态的固有差异。

以上是硬件障碍，但这只是一方面，软件同样存在障碍，且这个障碍可能需要更长的时间来解决。

软件角度，主要在大模型算法架构和数据量的积累

这里我们可能会产生疑问：灵巧手只是一个执行器总成，是硬件，与软件有什么关系呢？其实不完全是这样的：

（1）算法：瓶颈之一

人形机器人的算法仍然处在动态演进阶段，技术路线尚未收敛。但整体而言，在大脑部分，采用端到端大模型是普遍认知，尽管采用何种类型、何种架构的大模型还未有共识。

与大脑相对应的是小脑，大脑负责感知-推理-决策，小脑负责接收命令并执行，这是通常我们从概念上所理解的，人形机器人的算法架构。

那么问题是，既然大脑需要大模型，小脑需大模型吗，或只使用传统算法就足够满足需求？以及，这里的大脑和小脑要被放置在哪里，是在云端还是人形机器人头部或身体中央，还是可以将一部分配置在手部之类的边缘端？就以上问题，目前并没有形成标准解法。

那么对应灵巧手而言，它就不再是一个纯硬件，而是需要有软件植入其中，且这里的软件大概率不只是一个传统的、小型的运动控制算法。也就是说，人形机器人所面临的算法挑战也正是灵巧手所面临的算法挑战，这是其一。

其二，在人形机器人的整套算法体系当中，对于灵巧手的控制是核心难点之一。如果想让灵巧手模仿人类手实施抓取动作，正如上文谈到，需要以多模态的感知输入为基础，那么这对算法的多模态信息的融合能力要求极高。

总之，灵巧手的研发必须与算法深度融合，绝不仅仅是一个孤立的模块。

（2）数据量：几乎是目前面临的最大瓶颈

人类动作的数据采集与标注极其复杂且成本高昂，对数据准确性的要求极高，而目前人形机器人所积累的数据量远远不足。

这里做个对比，我们可以想象在智能驾驶领域，行业能够收集到的数据量等级，然后再与人形机器人相比较，目前新能源汽车全球年销量即将突破2000万辆，显然相较于机器人，智能驾驶能够积累的数据量要多得多。

但即便如此，智能驾驶却还没有完全走向成熟。与此同时，人形机器人的感知更复杂、执行更复杂，所需要的数据体量预计也会远大于智能驾驶。那么可以想象，数据量对行业构成了多大的限制。

而数据量瓶颈，主要制约的是灵巧手的能力。我们在上文已经谈到，身体关节的复杂动作，人形机器人已经能够在一定条件下实现，但手还差得很远。

当然，除使用真实世界数据以外，仿真等方式也可被用来做训练，但这却更能体现灵巧手的瓶颈，因为仿真数据有明显边界。

目前随着英伟达Isaac Sim等平台的物理引擎越来越逼真，人形机器人绝大部分的基础步态训练的确可以在虚拟世界进行，且成本已有所降低，但是诸如材质摩擦性质等差异微妙的长尾场景，以及涉及复杂交互的场景，仿真仍然很难完美模拟，而这些场景主要涉及灵巧手的操作。

表：几种训练方式的优劣势对比

以上是我们对灵巧手行业的简要分析，接下来让我们把视角转向硬件环节的投资机会。

哪些硬件比较重要，它们涉及哪些上市公司？

灵巧手在硬件上的技术路线并未收敛，各家整机厂商仍在探索。而领头羊，或者说起灯塔作用的，仍然是特斯拉的Optimus。此前特斯拉展示的Optimus 最新版本，在执行器上大体采用电机+行星齿轮箱+微型丝杠+腱绳的结构，那么我们以此为基础对硬件进行一番梳理。

表：执行器技术路线比较

（一）首先，我们先来拆解一下这个结构：在这个灵巧手结构当中，每只手的手部有22个自由度，自由度可以理解为关节，在这其中有17个是主动自由度，就是说这些自由度由执行器去主动控制，也就是上文所说的电机+行星齿轮箱+微型丝杠+腱绳的结构。

图：灵巧手以及手腕的自由度

来源：特斯拉，海豚研究

其中：

1、电机：动力单元，提供原始动力，它们被布置在手臂位置，早期版本是采用6个空心杯电机，但考虑到2.5版本已经增加到17个主动自由度，所以使用的电机大概率远超6个，根据产业链信息，既可能采用空心杯电机，也可能采用无刷齿槽电机。

2、行星齿轮箱：也在手臂位置，与电机连接，也可以叫做行星减速器，用来减速并增加扭矩，与身体旋转关节的作用类似。

3、微型丝杠：连接行星齿轮箱，将旋转运动转化为直线运动，同样在手臂位置。为什么有行星齿轮箱了还要配置丝杠？主要是基于体积、精度、寿命等因素考虑。

4、腱绳模块：连接丝杠螺母和手指，穿过手掌，将丝杠产生的直线拉力传导到手指，这当中，主动关节和被动关节都需要通过腱绳来连接。

那么灵巧手关节的驱动过程显而易见：接收到小脑发出的指令后，电机开始转动，动力传导到行星齿轮箱，再传导到微型丝杠，再传导到腱绳，最后传导到手指，在这里，腱绳类似于人类手部分布在手掌和手指位置的肌腱。

图：Optimus的手臂

来源：特斯拉，海豚研究

另外还有各类传感器，其中触觉传感器在较早版本中主要分布在五指指尖，每只手有5个，最新版本预计已经把覆盖范围扩展到整个手掌，数量上看预计远大于5个。

（二）产业链环节和硬件，以及相关公司

1、触觉传感器

关于触觉传感器，我们在此前的人形机器人报告中已经做过分析，此处不再赘述，仅谈谈未来的变化。一方面，触觉传感器的面积和数量预计将继续增加，由指尖扩展到整个手掌；同时，技术路线也在变化，可能由压阻式进化为压阻式和电容式相结合的混合方案。

不过有一点值得提示，目前即便是精度较高的电容式方案，想要还原纹理等极精细的接触力学数据，还是存在困难，所以技术路线还有可能进一步演进。

2、执行器硬件：电机、行星齿轮箱和微型丝杠

上篇文章也已经谈过，这里也仅谈谈可能的变化：未来电机可能由空心杯电机过渡到无刷有齿槽电机即微型无框电机，主要基于降本目的，但再往后电机方案仍可能发生变化；丝杠可能由微型滚珠丝杠进化为行星滚柱丝杠，主要基于精度、负载以及寿命要求。

3、腱绳

腱绳是特斯拉最新方案的重要组件，腱绳的主要难点在材料：从腱绳所发挥的功能我们可以看到，其与其他零件的最大差异在于，它不是刚性的，而是可以发生形变的，这会导致以下问题：

（1）可能发生蠕变，即会随时间发生变形且不可恢复；（2）在驱动过程中会产生弹性形变，导致迟滞效应；（3）会磨损甚至断裂，影响负载能力，影响寿命。

目前，主要采用金属或高分子纤维材料（典型如UHMVPE），其中UHMWPE被产业认为是更适合于量产的方向。

UHMWPE产品目前最领先的是荷兰皇家帝斯曼集团，其他生产商主要是美国霍尼韦尔国际公司、日本东洋纺织株式会社、三井化学株式会社等，中国大陆有部分企业也取得一些进展，处于验证阶段，包括南山智尚、同益中、恒辉安防等。

表：不同方案腱绳材料对比

图：某种腱绳混合方案的工作机制示意

来源：《Finger Unit Design for Hybrid-Driven Dexterous Hands》, Chong Deng, et al., Dolphin Research

4、总成环节

此前我们在三花智控的报告中谈过，特斯拉倾向于将执行器总成环节交给供应商来生产，而不是采购零部件自己组装，灵巧手同样也是总成思路。

目前已经有多家中国大陆企业在推进与特斯拉在灵巧手上的合作。根据产业链反馈的信息，目前进展较快的包括新剑传动（手部丝杠及手部总成）、浙江荣泰（手部丝杠及手部总成）等，其他有潜力的还包括特斯拉的总成供应商如拓普集团、三花智控等。

5、独立开发灵巧手的公司

人形机器人产业的确加速了灵巧手低成本方案的成熟落地。但灵巧手作为一个完整模块，并不完全依附于人形机器人本体而存在，试想灵巧手安装在轮足机器人上、机器狗背上、甚至工业机械臂上，也能实现一定功能。

全球有多家公司选择专注于灵巧手的研发和生产，我们简单梳理这些公司，尽管它们基本都未上市，但以之为参考，可以观察灵巧手技术的演化和收敛方向。

表：灵巧手公司梳理

风险在哪里？

技术路线未收敛

灵巧手的技术路线并未收敛，换句话说，目前灵巧手的技术方案仍满足不了需求。对于硬件相关公司来说，如果技术路线最终确定，那的确会带来投资机会，但如果技术路线被抛弃，那自然会面临预期落空的风险。

那么当前时点，我们为什么还要做上述硬件环节的分析呢？因为只有知道了是什么和为什么，才能前瞻地判断未来可能的变化。

举例来说，对于特斯拉最新的灵巧手方案，大量的执行器都集中在手臂，这可有效减小手部体积，从而大幅增加自由度。但与此同时，这又会增加结构复杂度，造成控制延迟，以及带来热积聚等一系列问题。

那么往后看，为了解决这些问题，灵巧手和整机公司也许会做出这样的选择：暂时牺牲灵巧手的部分手指自由度，那么这将不利于某些执行器零件；增加热管理的硬件配置，那么这将有利于供应热管理模块的公司，等等。

这里结合上文分析，对于硬件的迭代方向，我们认为可以重点总结为以下几点：

（1）成本要继续降低，对于目前的灵巧手方案，成本仍是制约因素；

（2）要有足够灵敏和足够精确的感知能力，这是大模型算法能够有效应用的前提；

（3）集成度和性能都要满足，所以执行器技术方案还需要权衡，不只是硬件迭代，整个动力传导结构也存在不确定性；

（4）材料还需要进一步开发，需要同时满足柔性、准确性以及寿命要求；

（5）热管理可能是一个增量环节；

（6）需要关注不同环节的相互影响，例如腱绳的问题是否可通过其他环节来补足，比如通过算法纠错，或者通过增加位置传感器的反馈来提高准确度等。

供应链还未收敛

目前投资市场和资本市场对人形机器人产业的预期显而易见，但考虑到众多主机厂商并未上市，于是部分硬件公司就成为了市场流动性的蓄水池。

这里问题在于，按照特斯拉给予的预期，如果进展符合规划，那么2026年产业将进入量产阶段，这将导致供应链收敛风险：

我们可以看到，对于人形机器人每个硬件环节，前期参与研发和验证的硬件公司均有多家，但如果进入量产阶段，整机厂商在每个环节的实际供应商可能并没有这么多，经验上一般在2-3家，那么在进入量产阶段后，最终未进入供应链的硬件企业将面临预期落空风险。

最后，不谈具体环节和公司，我们想结合产业链的最新进展，对行业做一些展望

首先，未来灵巧手真的是人形机器人身上必不可少的的模块吗？

从任务泛化和环境适配的角度讲，人形机器人的末端硬件，做成五指手的形状也就是灵巧手，几乎是必然选择。

我们可以想象，人形机器人的远期空间在于，它们将能够替代人类任何形式的劳动，而这些劳动所依附的工具，本身都是基于人类的生理特性来适配的。可能有人说，给机器人装上一个锅铲，它就可以直接炒菜，为什么还要费劲给它装一只手，再让这只手拿着锅铲炒菜呢，这岂不是多此一举？

完全不是，因为手是一个媒介，它的作用是连接万千工具，它就像底层代码，或者说像人类的语言，没有手的存在，机器人的通用性自然无从谈起。

另一方面，从数据获取和模型训练的效率来看，灵巧手也具备必然性。

通过上文的分析我们可以了解，灵巧手乃至人形机器人的最大瓶颈之一在于数据量，而怎么获取这个数据呢？最可靠的仍然是来自现实世界的数据。而获取这些数据的最可靠方式，就是直接观察和模仿人类的行为。

如果人形机器人的末端不是灵巧手，那么这个模仿就无从谈起。通过灵巧手，人形机器人的动作可以与人类动作达成最直接的映射关系，这样的数据利用和学习的效率最高，最终动作的迁移也会更自然和准确。

但反过来说，从商业化的角度讲，灵巧手是一个马上可以商业化的产品吗？

我们认为初期阶段，灵巧手的应用仍将首先集中在限定性场景，如特斯拉Optimus可能将灵巧手首先应用在特斯拉内部工厂以进行数据收集和训练；以及某些非成本敏感领域，如科研教育等。而要想真正实现通用性场景的应用，还需要一定的时间。

因为上文谈过，灵巧手的最大瓶颈来自于数据量，而数据的最可靠准确的来源是现实世界，那么这个数据积累过程是无法被绕过的，至少从现阶段看，一定需要足够的场景和足够的时间。

然而，尽管在此过程中，完整的灵巧手方案仍然需要持续打磨，但某些中间形态，却可能首先达到商业化应用的条件，或许是两指，或许是三指，或者较少的自由度，或者某些欠驱动方案，或者相对简化的感知硬件，以满足某些半通用性半专用性的场景。

图：Robotiq的三指夹爪

来源：Robotiq，海豚研究

图：Barrett Technology的BarrettHand三指手

来源：Barrett Technology，海豚研究

关于这种“场景降维”，我们可以类比汽车自动驾驶的演进路径——在自动驾驶的萌芽阶段，部分公司选择直接将L4/L5级别的自动驾驶作为实现目标，而有的公司则选择了一条渐进式路径，先布局L2/L3级别的辅助驾驶，作为行业的入场券，以现金流反哺产品研发迭代。

另外，最近两年，在自动驾驶还未成熟的前夜，无论是特斯拉，还是中国大陆新能源汽车企业，选择首先推出某些场景化的辅助驾驶服务，例如高速NOA、城市通勤NOA、全场景NOA等。

在有限的场景里，通过技术简化和功能限制，来实现一些可商用的、有一定商业价值的产品；同步地，利用这些产品的商业化，积累数据来进一步迭代算法，以逐步逼近终极产品。那么这也是一条可以兼顾现金流可持续性和产品迭代的可行路径。

上一篇：2.7 万名员工大调查，报告称 Z 世代年轻人最怕被 AI 抢走工作

下一篇：问止中医IPO：合规争议与业务依赖或成上市“拦路虎”

返回列表

热文阅读

2 天前

撕裂的百度：AI向上，股价向下

2 天前

OpenAI 与 Shazam 合作，为 ChatGPT 客户端添加音乐识别功能

2 天前

特斯拉悄然转变营销策略，加大社交媒体广告投放力度

2 天前

百度启动史上最大规模暑期实习招聘，超九成岗位与AI相关

2 天前

星际之门扩建项目戛然而止，OpenAI与甲骨文到底发生了什么？

2 天前

英特尔酷睿 Ultra 200S Plus 处理器核心特性曝光：提升 1080p 游戏帧率

2 天前

英特尔正式推出酷睿（第二代）性能核 "Bartlett Lake 12P" 处理器

2 天前

OpenAI“星际之门”扩建告吹？曝融资遇阻，故障频发，英伟达下场救火

1 天前

猛裁1.6万人后，网站再崩6小时、一周4次重大事故，官方“紧急复盘”：跟裁员无关，也不是AI写代码的锅

2 天前

Qt Group 携手高通，加速开发面向未来工厂的工业 AI 设备

上一篇：2.7 万名员工大调查，报告称 Z 世代年轻人最怕被 AI 抢走工作

下一篇：问止中医IPO：合规争议与业务依赖或成上市“拦路虎”

Just Quick Just Quality

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们