上篇海豚君对人形机器人产业链各环节做了详细梳理之后,本篇重点研究一下灵巧手,海豚君关注几个关键问题:
1)探讨灵巧手为何重要?
2)灵巧手的产业瓶颈到底在哪里?
3)这些瓶颈的解决意味着怎样的风险与机会?
4)灵巧手未来的方向是什么,可能的商业化路径?
废话不多,直接上正题:
对于人形机器人,马斯克及特斯拉曾反复强调灵巧手的难度及价值。在此前多个Optimus人形机器人的演示视频中,我们也可以看到,市场期待也是手部动作的进展。
同时,人形机器人整机厂,尤其是中国大陆整机厂商,一年多以来运动控制上炫技频频,从只会转手绢,迅速进化为跳舞打拳样样精通,动作流畅度已经让大部分人类自叹不如了。但我们是否有注意到,这些炫酷动作主要集中在身体关节,基本上没有用到手。
这当然不是手不重要,反而说明手部动作的实现难度远大于身体关节。
手有多重要呢?我们可以想象一下,一台只装了假手的人形机器人,不管身体关节如何灵活,如果它没有灵巧的双手,那么相较于轮、足机器人,甚至最普通的工业/协作机器人,也强不到哪里去。
所以手,其实是人形机器人上最关键的部位。但从产业化的角度,手的实现难度的确很大。
举个简单的例子:当人类决定用手抓取东西时,依据是什么信息呢?
首先是视觉信息,我们用眼睛看到一个物品,然后,我们可以利用获取到的视觉信息,叠加我们的思考,来判断这个东西的位置、距离、种类以及性质等。
然后我们开始实施抓取动作,在这个过程中,触觉开始发挥作用。首先,我们的手指开始接触这个物品,然后,我们通过手指的触觉神经,来获取这个物品的重量、软硬、温度以及摩擦力等信息,最后我们开始实施抓取,可以想象,对于光滑的或者粗糙的物品,我们抓取它们的方式显然是不同的。
另外,这里触觉所获取信息的精细度也与视觉不同,比如对于一根纤细的动物毛发,我们通过视觉可能很难捕捉到它,但如果用手指触摸,却能很容易感受到它的存在。
图:Optimus抓取鸡蛋及应用触觉传感器

来源:特斯拉,海豚研究
通过以上表述,我们能够简单理解灵巧手的难度了,那么要想使得灵巧手实现这样的能力,瓶颈又在哪里?
这里我们分为硬件和软件两部分。简单来说,硬件难点在硬件集成和多模态感知融合,软件在大模型算法架构和数据量积累。
(1)空间集成难度大
例如在特斯拉Optimus 2.5方案中,需要在极小空间内塞下20多个自由度所需要的零部件,包括电机、齿轮箱、微型滚珠丝杠以及腱绳等,且这些零部件需要满足高功率密度、高精度、高可靠性、高寿命以及低成本等要求。
(2)对感知要求高,需大量且多模态的传感器,其中难点最大的还是触觉
这里涉及到传感器,尤其是触觉传感器。关于传感器,我们在此前的人形机器人报告中谈到过,一方面需要满足高精度要求(要求数据一致性,且不能有性能漂移),一方面需要将不同知觉信息融合,那么就对多模态感知融合能力要求极高,这需要克服不同模态的固有差异。
以上是硬件障碍,但这只是一方面,软件同样存在障碍,且这个障碍可能需要更长的时间来解决。
这里我们可能会产生疑问:灵巧手只是一个执行器总成,是硬件,与软件有什么关系呢?其实不完全是这样的:
(1)算法:瓶颈之一
人形机器人的算法仍然处在动态演进阶段,技术路线尚未收敛。但整体而言,在大脑部分,采用端到端大模型是普遍认知,尽管采用何种类型、何种架构的大模型还未有共识。
与大脑相对应的是小脑,大脑负责感知-推理-决策,小脑负责接收命令并执行,这是通常我们从概念上所理解的,人形机器人的算法架构。
那么问题是,既然大脑需要大模型,小脑需大模型吗,或只使用传统算法就足够满足需求?以及,这里的大脑和小脑要被放置在哪里,是在云端还是人形机器人头部或身体中央,还是可以将一部分配置在手部之类的边缘端?就以上问题,目前并没有形成标准解法。
那么对应灵巧手而言,它就不再是一个纯硬件,而是需要有软件植入其中,且这里的软件大概率不只是一个传统的、小型的运动控制算法。也就是说,人形机器人所面临的算法挑战也正是灵巧手所面临的算法挑战,这是其一。
其二,在人形机器人的整套算法体系当中,对于灵巧手的控制是核心难点之一。如果想让灵巧手模仿人类手实施抓取动作,正如上文谈到,需要以多模态的感知输入为基础,那么这对算法的多模态信息的融合能力要求极高。
总之,灵巧手的研发必须与算法深度融合,绝不仅仅是一个孤立的模块。
(2)数据量:几乎是目前面临的最大瓶颈
人类动作的数据采集与标注极其复杂且成本高昂,对数据准确性的要求极高,而目前人形机器人所积累的数据量远远不足。
这里做个对比,我们可以想象在智能驾驶领域,行业能够收集到的数据量等级,然后再与人形机器人相比较,目前新能源汽车全球年销量即将突破2000万辆,显然相较于机器人,智能驾驶能够积累的数据量要多得多。
但即便如此,智能驾驶却还没有完全走向成熟。与此同时,人形机器人的感知更复杂、执行更复杂,所需要的数据体量预计也会远大于智能驾驶。那么可以想象,数据量对行业构成了多大的限制。
而数据量瓶颈,主要制约的是灵巧手的能力。我们在上文已经谈到,身体关节的复杂动作,人形机器人已经能够在一定条件下实现,但手还差得很远。
当然,除使用真实世界数据以外,仿真等方式也可被用来做训练,但这却更能体现灵巧手的瓶颈,因为仿真数据有明显边界。
目前随着英伟达Isaac Sim等平台的物理引擎越来越逼真,人形机器人绝大部分的基础步态训练的确可以在虚拟世界进行,且成本已有所降低,但是诸如材质摩擦性质等差异微妙的长尾场景,以及涉及复杂交互的场景,仿真仍然很难完美模拟,而这些场景主要涉及灵巧手的操作。
表:几种训练方式的优劣势对比

以上是我们对灵巧手行业的简要分析,接下来让我们把视角转向硬件环节的投资机会。
灵巧手在硬件上的技术路线并未收敛,各家整机厂商仍在探索。而领头羊,或者说起灯塔作用的,仍然是特斯拉的Optimus。此前特斯拉展示的Optimus 最新版本,在执行器上大体采用电机+行星齿轮箱+微型丝杠+腱绳的结构,那么我们以此为基础对硬件进行一番梳理。
表:执行器技术路线比较

(一)首先,我们先来拆解一下这个结构:在这个灵巧手结构当中,每只手的手部有22个自由度,自由度可以理解为关节,在这其中有17个是主动自由度,就是说这些自由度由执行器去主动控制,也就是上文所说的电机+行星齿轮箱+微型丝杠+腱绳的结构。
图:灵巧手以及手腕的自由度

来源:特斯拉,海豚研究
其中:
1、电机:动力单元,提供原始动力,它们被布置在手臂位置,早期版本是采用6个空心杯电机,但考虑到2.5版本已经增加到17个主动自由度,所以使用的电机大概率远超6个,根据产业链信息,既可能采用空心杯电机,也可能采用无刷齿槽电机。
2、行星齿轮箱:也在手臂位置,与电机连接,也可以叫做行星减速器,用来减速并增加扭矩,与身体旋转关节的作用类似。
3、微型丝杠:连接行星齿轮箱,将旋转运动转化为直线运动,同样在手臂位置。为什么有行星齿轮箱了还要配置丝杠?主要是基于体积、精度、寿命等因素考虑。
4、腱绳模块:连接丝杠螺母和手指,穿过手掌,将丝杠产生的直线拉力传导到手指,这当中,主动关节和被动关节都需要通过腱绳来连接。
那么灵巧手关节的驱动过程显而易见:接收到小脑发出的指令后,电机开始转动,动力传导到行星齿轮箱,再传导到微型丝杠,再传导到腱绳,最后传导到手指,在这里,腱绳类似于人类手部分布在手掌和手指位置的肌腱。
图:Optimus的手臂

来源:特斯拉,海豚研究
另外还有各类传感器,其中触觉传感器在较早版本中主要分布在五指指尖,每只手有5个,最新版本预计已经把覆盖范围扩展到整个手掌,数量上看预计远大于5个。
(二)产业链环节和硬件,以及相关公司
1、触觉传感器
关于触觉传感器,我们在此前的人形机器人报告中已经做过分析,此处不再赘述,仅谈谈未来的变化。一方面,触觉传感器的面积和数量预计将继续增加,由指尖扩展到整个手掌;同时,技术路线也在变化,可能由压阻式进化为压阻式和电容式相结合的混合方案。
不过有一点值得提示,目前即便是精度较高的电容式方案,想要还原纹理等极精细的接触力学数据,还是存在困难,所以技术路线还有可能进一步演进。
2、执行器硬件:电机、行星齿轮箱和微型丝杠
上篇文章也已经谈过,这里也仅谈谈可能的变化:未来电机可能由空心杯电机过渡到无刷有齿槽电机即微型无框电机,主要基于降本目的,但再往后电机方案仍可能发生变化;丝杠可能由微型滚珠丝杠进化为行星滚柱丝杠,主要基于精度、负载以及寿命要求。
3、腱绳
腱绳是特斯拉最新方案的重要组件,腱绳的主要难点在材料:从腱绳所发挥的功能我们可以看到,其与其他零件的最大差异在于,它不是刚性的,而是可以发生形变的,这会导致以下问题:
(1)可能发生蠕变,即会随时间发生变形且不可恢复;(2)在驱动过程中会产生弹性形变,导致迟滞效应;(3)会磨损甚至断裂,影响负载能力,影响寿命。
目前,主要采用金属或高分子纤维材料(典型如UHMVPE),其中UHMWPE被产业认为是更适合于量产的方向。
UHMWPE产品目前最领先的是荷兰皇家帝斯曼集团,其他生产商主要是美国霍尼韦尔国际公司、日本东洋纺织株式会社、三井化学株式会社等,中国大陆有部分企业也取得一些进展,处于验证阶段,包括南山智尚、同益中、恒辉安防等。
表:不同方案腱绳材料对比

图:某种腱绳混合方案的工作机制示意

来源:《Finger Unit Design for Hybrid-Driven Dexterous Hands》, Chong Deng, et al., Dolphin Research
4、总成环节
此前我们在三花智控的报告中谈过,特斯拉倾向于将执行器总成环节交给供应商来生产,而不是采购零部件自己组装,灵巧手同样也是总成思路。
目前已经有多家中国大陆企业在推进与特斯拉在灵巧手上的合作。根据产业链反馈的信息,目前进展较快的包括新剑传动(手部丝杠及手部总成)、浙江荣泰(手部丝杠及手部总成)等,其他有潜力的还包括特斯拉的总成供应商如拓普集团、三花智控等。
5、独立开发灵巧手的公司
人形机器人产业的确加速了灵巧手低成本方案的成熟落地。但灵巧手作为一个完整模块,并不完全依附于人形机器人本体而存在,试想灵巧手安装在轮足机器人上、机器狗背上、甚至工业机械臂上,也能实现一定功能。
全球有多家公司选择专注于灵巧手的研发和生产,我们简单梳理这些公司,尽管它们基本都未上市,但以之为参考,可以观察灵巧手技术的演化和收敛方向。
表:灵巧手公司梳理

灵巧手的技术路线并未收敛,换句话说,目前灵巧手的技术方案仍满足不了需求。对于硬件相关公司来说,如果技术路线最终确定,那的确会带来投资机会,但如果技术路线被抛弃,那自然会面临预期落空的风险。
那么当前时点,我们为什么还要做上述硬件环节的分析呢?因为只有知道了是什么和为什么,才能前瞻地判断未来可能的变化。
举例来说,对于特斯拉最新的灵巧手方案,大量的执行器都集中在手臂,这可有效减小手部体积,从而大幅增加自由度。但与此同时,这又会增加结构复杂度,造成控制延迟,以及带来热积聚等一系列问题。
那么往后看,为了解决这些问题,灵巧手和整机公司也许会做出这样的选择:暂时牺牲灵巧手的部分手指自由度,那么这将不利于某些执行器零件;增加热管理的硬件配置,那么这将有利于供应热管理模块的公司,等等。
这里结合上文分析,对于硬件的迭代方向,我们认为可以重点总结为以下几点:
(1)成本要继续降低,对于目前的灵巧手方案,成本仍是制约因素;
(2)要有足够灵敏和足够精确的感知能力,这是大模型算法能够有效应用的前提;
(3)集成度和性能都要满足,所以执行器技术方案还需要权衡,不只是硬件迭代,整个动力传导结构也存在不确定性;
(4)材料还需要进一步开发,需要同时满足柔性、准确性以及寿命要求;
(5)热管理可能是一个增量环节;
(6)需要关注不同环节的相互影响,例如腱绳的问题是否可通过其他环节来补足,比如通过算法纠错,或者通过增加位置传感器的反馈来提高准确度等。
目前投资市场和资本市场对人形机器人产业的预期显而易见,但考虑到众多主机厂商并未上市,于是部分硬件公司就成为了市场流动性的蓄水池。
这里问题在于,按照特斯拉给予的预期,如果进展符合规划,那么2026年产业将进入量产阶段,这将导致供应链收敛风险:
我们可以看到,对于人形机器人每个硬件环节,前期参与研发和验证的硬件公司均有多家,但如果进入量产阶段,整机厂商在每个环节的实际供应商可能并没有这么多,经验上一般在2-3家,那么在进入量产阶段后,最终未进入供应链的硬件企业将面临预期落空风险。
从任务泛化和环境适配的角度讲,人形机器人的末端硬件,做成五指手的形状也就是灵巧手,几乎是必然选择。
我们可以想象,人形机器人的远期空间在于,它们将能够替代人类任何形式的劳动,而这些劳动所依附的工具,本身都是基于人类的生理特性来适配的。可能有人说,给机器人装上一个锅铲,它就可以直接炒菜,为什么还要费劲给它装一只手,再让这只手拿着锅铲炒菜呢,这岂不是多此一举?
完全不是,因为手是一个媒介,它的作用是连接万千工具,它就像底层代码,或者说像人类的语言,没有手的存在,机器人的通用性自然无从谈起。
另一方面,从数据获取和模型训练的效率来看,灵巧手也具备必然性。
通过上文的分析我们可以了解,灵巧手乃至人形机器人的最大瓶颈之一在于数据量,而怎么获取这个数据呢?最可靠的仍然是来自现实世界的数据。而获取这些数据的最可靠方式,就是直接观察和模仿人类的行为。
如果人形机器人的末端不是灵巧手,那么这个模仿就无从谈起。通过灵巧手,人形机器人的动作可以与人类动作达成最直接的映射关系,这样的数据利用和学习的效率最高,最终动作的迁移也会更自然和准确。
我们认为初期阶段,灵巧手的应用仍将首先集中在限定性场景,如特斯拉Optimus可能将灵巧手首先应用在特斯拉内部工厂以进行数据收集和训练;以及某些非成本敏感领域,如科研教育等。而要想真正实现通用性场景的应用,还需要一定的时间。
因为上文谈过,灵巧手的最大瓶颈来自于数据量,而数据的最可靠准确的来源是现实世界,那么这个数据积累过程是无法被绕过的,至少从现阶段看,一定需要足够的场景和足够的时间。
然而,尽管在此过程中,完整的灵巧手方案仍然需要持续打磨,但某些中间形态,却可能首先达到商业化应用的条件,或许是两指,或许是三指,或者较少的自由度,或者某些欠驱动方案,或者相对简化的感知硬件,以满足某些半通用性半专用性的场景。
图:Robotiq的三指夹爪

来源:Robotiq,海豚研究
图:Barrett Technology的BarrettHand三指手

来源:Barrett Technology,海豚研究
关于这种“场景降维”,我们可以类比汽车自动驾驶的演进路径——在自动驾驶的萌芽阶段,部分公司选择直接将L4/L5级别的自动驾驶作为实现目标,而有的公司则选择了一条渐进式路径,先布局L2/L3级别的辅助驾驶,作为行业的入场券,以现金流反哺产品研发迭代。
另外,最近两年,在自动驾驶还未成熟的前夜,无论是特斯拉,还是中国大陆新能源汽车企业,选择首先推出某些场景化的辅助驾驶服务,例如高速NOA、城市通勤NOA、全场景NOA等。
在有限的场景里,通过技术简化和功能限制,来实现一些可商用的、有一定商业价值的产品;同步地,利用这些产品的商业化,积累数据来进一步迭代算法,以逐步逼近终极产品。那么这也是一条可以兼顾现金流可持续性和产品迭代的可行路径。
