人形机器人:为何灵巧手是迈不过去的门槛?
10 小时前 / 阅读约17分钟
来源:36kr
灵巧手是人形机器人关键部位,实现难度大。硬件难点在集成和多模态感知,软件在大模型算法和数据量。分析了硬件环节投资机会,指出灵巧手初期应用将集中在限定性场景。

上篇海豚君对人形机器人产业链各环节做了详细梳理之后,本篇重点研究一下灵巧手,海豚君关注几个关键问题:

1)探讨灵巧手为何重要?

2)灵巧手的产业瓶颈到底在哪里?

3)这些瓶颈的解决意味着怎样的风险与机会?

4)灵巧手未来的方向是什么,可能的商业化路径?

废话不多,直接上正题:

为什么要关注灵巧手?

对于人形机器人,马斯克及特斯拉曾反复强调灵巧手的难度及价值。在此前多个Optimus人形机器人的演示视频中,我们也可以看到,市场期待也是手部动作的进展。

同时,人形机器人整机厂,尤其是中国大陆整机厂商,一年多以来运动控制上炫技频频,从只会转手绢,迅速进化为跳舞打拳样样精通,动作流畅度已经让大部分人类自叹不如了。但我们是否有注意到,这些炫酷动作主要集中在身体关节,基本上没有用到手。

这当然不是手不重要,反而说明手部动作的实现难度远大于身体关节。

手有多重要呢?我们可以想象一下,一台只装了假手的人形机器人,不管身体关节如何灵活,如果它没有灵巧的双手,那么相较于轮、足机器人,甚至最普通的工业/协作机器人,也强不到哪里去。

所以手,其实是人形机器人上最关键的部位。但从产业化的角度,手的实现难度的确很大。

举个简单的例子:当人类决定用手抓取东西时,依据是什么信息呢?

首先是视觉信息,我们用眼睛看到一个物品,然后,我们可以利用获取到的视觉信息,叠加我们的思考,来判断这个东西的位置、距离、种类以及性质等。

然后我们开始实施抓取动作,在这个过程中,触觉开始发挥作用。首先,我们的手指开始接触这个物品,然后,我们通过手指的触觉神经,来获取这个物品的重量、软硬、温度以及摩擦力等信息,最后我们开始实施抓取,可以想象,对于光滑的或者粗糙的物品,我们抓取它们的方式显然是不同的。

另外,这里触觉所获取信息的精细度也与视觉不同,比如对于一根纤细的动物毛发,我们通过视觉可能很难捕捉到它,但如果用手指触摸,却能很容易感受到它的存在。

图:Optimus抓取鸡蛋及应用触觉传感器

来源:特斯拉,海豚研究 

通过以上表述,我们能够简单理解灵巧手的难度了,那么要想使得灵巧手实现这样的能力,瓶颈又在哪里?

灵巧手的瓶颈在哪里?

这里我们分为硬件和软件两部分。简单来说,硬件难点在硬件集成多模态感知融合,软件在大模型算法架构数据量积累

硬件角度,难点主要体现在高空间集成和多模态感知

(1)空间集成难度大

例如在特斯拉Optimus 2.5方案中,需要在极小空间内塞下20多个自由度所需要的零部件,包括电机、齿轮箱、微型滚珠丝杠以及腱绳等,且这些零部件需要满足高功率密度、高精度、高可靠性、高寿命以及低成本等要求。

(2)对感知要求高,需大量且多模态的传感器,其中难点最大的还是触觉

这里涉及到传感器,尤其是触觉传感器。关于传感器,我们在此前的人形机器人报告中谈到过,一方面需要满足高精度要求(要求数据一致性,且不能有性能漂移),一方面需要将不同知觉信息融合,那么就对多模态感知融合能力要求极高,这需要克服不同模态的固有差异。

以上是硬件障碍,但这只是一方面,软件同样存在障碍,且这个障碍可能需要更长的时间来解决。

软件角度,主要在大模型算法架构和数据量的积累

这里我们可能会产生疑问:灵巧手只是一个执行器总成,是硬件,与软件有什么关系呢?其实不完全是这样的:

(1)算法:瓶颈之一

人形机器人的算法仍然处在动态演进阶段,技术路线尚未收敛。但整体而言,在大脑部分,采用端到端大模型是普遍认知,尽管采用何种类型、何种架构的大模型还未有共识。

与大脑相对应的是小脑,大脑负责感知-推理-决策,小脑负责接收命令并执行,这是通常我们从概念上所理解的,人形机器人的算法架构。

那么问题是,既然大脑需要大模型,小脑需大模型吗,或只使用传统算法就足够满足需求?以及,这里的大脑和小脑要被放置在哪里,是在云端还是人形机器人头部或身体中央,还是可以将一部分配置在手部之类的边缘端?就以上问题,目前并没有形成标准解法。

那么对应灵巧手而言,它就不再是一个纯硬件,而是需要有软件植入其中,且这里的软件大概率不只是一个传统的、小型的运动控制算法。也就是说,人形机器人所面临的算法挑战也正是灵巧手所面临的算法挑战,这是其一。

其二,在人形机器人的整套算法体系当中,对于灵巧手的控制是核心难点之一。如果想让灵巧手模仿人类手实施抓取动作,正如上文谈到,需要以多模态的感知输入为基础,那么这对算法的多模态信息的融合能力要求极高。

总之,灵巧手的研发必须与算法深度融合,绝不仅仅是一个孤立的模块。

(2)数据量:几乎是目前面临的最大瓶颈

人类动作的数据采集与标注极其复杂且成本高昂,对数据准确性的要求极高,而目前人形机器人所积累的数据量远远不足。

这里做个对比,我们可以想象在智能驾驶领域,行业能够收集到的数据量等级,然后再与人形机器人相比较,目前新能源汽车全球年销量即将突破2000万辆,显然相较于机器人,智能驾驶能够积累的数据量要多得多。

但即便如此,智能驾驶却还没有完全走向成熟。与此同时,人形机器人的感知更复杂、执行更复杂,所需要的数据体量预计也会远大于智能驾驶。那么可以想象,数据量对行业构成了多大的限制。

而数据量瓶颈,主要制约的是灵巧手的能力。我们在上文已经谈到,身体关节的复杂动作,人形机器人已经能够在一定条件下实现,但手还差得很远。

当然,除使用真实世界数据以外,仿真等方式也可被用来做训练,但这却更能体现灵巧手的瓶颈,因为仿真数据有明显边界。

目前随着英伟达Isaac Sim等平台的物理引擎越来越逼真,人形机器人绝大部分的基础步态训练的确可以在虚拟世界进行,且成本已有所降低,但是诸如材质摩擦性质等差异微妙的长尾场景,以及涉及复杂交互的场景,仿真仍然很难完美模拟,而这些场景主要涉及灵巧手的操作。

表:几种训练方式的优劣势对比

以上是我们对灵巧手行业的简要分析,接下来让我们把视角转向硬件环节的投资机会。 

哪些硬件比较重要,它们涉及哪些上市公司?

灵巧手在硬件上的技术路线并未收敛,各家整机厂商仍在探索。而领头羊,或者说起灯塔作用的,仍然是特斯拉的Optimus。此前特斯拉展示的Optimus 最新版本,在执行器上大体采用电机+行星齿轮箱+微型丝杠+腱绳的结构,那么我们以此为基础对硬件进行一番梳理。

表:执行器技术路线比较

(一)首先,我们先来拆解一下这个结构:在这个灵巧手结构当中,每只手的手部有22个自由度,自由度可以理解为关节,在这其中有17个是主动自由度,就是说这些自由度由执行器去主动控制,也就是上文所说的电机+行星齿轮箱+微型丝杠+腱绳的结构。

图:灵巧手以及手腕的自由度

来源:特斯拉,海豚研究 

其中:

1、电机:动力单元,提供原始动力,它们被布置在手臂位置,早期版本是采用6个空心杯电机,但考虑到2.5版本已经增加到17个主动自由度,所以使用的电机大概率远超6个,根据产业链信息,既可能采用空心杯电机,也可能采用无刷齿槽电机。

2、行星齿轮箱:也在手臂位置,与电机连接,也可以叫做行星减速器,用来减速并增加扭矩,与身体旋转关节的作用类似。

3、微型丝杠:连接行星齿轮箱,将旋转运动转化为直线运动,同样在手臂位置。为什么有行星齿轮箱了还要配置丝杠?主要是基于体积、精度、寿命等因素考虑。

4、腱绳模块:连接丝杠螺母和手指,穿过手掌,将丝杠产生的直线拉力传导到手指,这当中,主动关节和被动关节都需要通过腱绳来连接。

那么灵巧手关节的驱动过程显而易见:接收到小脑发出的指令后,电机开始转动,动力传导到行星齿轮箱,再传导到微型丝杠,再传导到腱绳,最后传导到手指,在这里,腱绳类似于人类手部分布在手掌和手指位置的肌腱。

图:Optimus的手臂

来源:特斯拉,海豚研究 

另外还有各类传感器,其中触觉传感器在较早版本中主要分布在五指指尖,每只手有5个,最新版本预计已经把覆盖范围扩展到整个手掌,数量上看预计远大于5个。

(二)产业链环节和硬件,以及相关公司

1、触觉传感器

关于触觉传感器,我们在此前的人形机器人报告中已经做过分析,此处不再赘述,仅谈谈未来的变化。一方面,触觉传感器的面积和数量预计将继续增加,由指尖扩展到整个手掌;同时,技术路线也在变化,可能由压阻式进化为压阻式和电容式相结合的混合方案。

不过有一点值得提示,目前即便是精度较高的电容式方案,想要还原纹理等极精细的接触力学数据,还是存在困难,所以技术路线还有可能进一步演进。

2、执行器硬件:电机、行星齿轮箱和微型丝杠

上篇文章也已经谈过,这里也仅谈谈可能的变化:未来电机可能由空心杯电机过渡到无刷有齿槽电机即微型无框电机,主要基于降本目的,但再往后电机方案仍可能发生变化;丝杠可能由微型滚珠丝杠进化为行星滚柱丝杠,主要基于精度、负载以及寿命要求。

3、腱绳

腱绳是特斯拉最新方案的重要组件,腱绳的主要难点在材料:从腱绳所发挥的功能我们可以看到,其与其他零件的最大差异在于,它不是刚性的,而是可以发生形变的,这会导致以下问题:

(1)可能发生蠕变,即会随时间发生变形且不可恢复;(2)在驱动过程中会产生弹性形变,导致迟滞效应;(3)会磨损甚至断裂,影响负载能力,影响寿命。

目前,主要采用金属或高分子纤维材料(典型如UHMVPE),其中UHMWPE被产业认为是更适合于量产的方向。

UHMWPE产品目前最领先的是荷兰皇家帝斯曼集团,其他生产商主要是美国霍尼韦尔国际公司、日本东洋纺织株式会社、三井化学株式会社等,中国大陆有部分企业也取得一些进展,处于验证阶段,包括南山智尚、同益中、恒辉安防等。

表:不同方案腱绳材料对比

图:某种腱绳混合方案的工作机制示意

来源:《Finger Unit Design for Hybrid-Driven Dexterous Hands》, Chong Deng, et al., Dolphin Research

4、总成环节

此前我们在三花智控的报告中谈过,特斯拉倾向于将执行器总成环节交给供应商来生产,而不是采购零部件自己组装,灵巧手同样也是总成思路。

目前已经有多家中国大陆企业在推进与特斯拉在灵巧手上的合作。根据产业链反馈的信息,目前进展较快的包括新剑传动(手部丝杠及手部总成)、浙江荣泰(手部丝杠及手部总成)等,其他有潜力的还包括特斯拉的总成供应商如拓普集团、三花智控等。

5、独立开发灵巧手的公司

人形机器人产业的确加速了灵巧手低成本方案的成熟落地。但灵巧手作为一个完整模块,并不完全依附于人形机器人本体而存在,试想灵巧手安装在轮足机器人上、机器狗背上、甚至工业机械臂上,也能实现一定功能。

全球有多家公司选择专注于灵巧手的研发和生产,我们简单梳理这些公司,尽管它们基本都未上市,但以之为参考,可以观察灵巧手技术的演化和收敛方向。

表:灵巧手公司梳理

风险在哪里?

技术路线未收敛

灵巧手的技术路线并未收敛,换句话说,目前灵巧手的技术方案仍满足不了需求。对于硬件相关公司来说,如果技术路线最终确定,那的确会带来投资机会,但如果技术路线被抛弃,那自然会面临预期落空的风险。

那么当前时点,我们为什么还要做上述硬件环节的分析呢?因为只有知道了是什么和为什么,才能前瞻地判断未来可能的变化。

举例来说,对于特斯拉最新的灵巧手方案,大量的执行器都集中在手臂,这可有效减小手部体积,从而大幅增加自由度。但与此同时,这又会增加结构复杂度,造成控制延迟,以及带来热积聚等一系列问题。

那么往后看,为了解决这些问题,灵巧手和整机公司也许会做出这样的选择:暂时牺牲灵巧手的部分手指自由度,那么这将不利于某些执行器零件;增加热管理的硬件配置,那么这将有利于供应热管理模块的公司,等等。

这里结合上文分析,对于硬件的迭代方向,我们认为可以重点总结为以下几点:

(1)成本要继续降低,对于目前的灵巧手方案,成本仍是制约因素;

(2)要有足够灵敏和足够精确的感知能力,这是大模型算法能够有效应用的前提;

(3)集成度和性能都要满足,所以执行器技术方案还需要权衡,不只是硬件迭代,整个动力传导结构也存在不确定性;

(4)材料还需要进一步开发,需要同时满足柔性、准确性以及寿命要求;

(5)热管理可能是一个增量环节;

(6)需要关注不同环节的相互影响,例如腱绳的问题是否可通过其他环节来补足,比如通过算法纠错,或者通过增加位置传感器的反馈来提高准确度等。

供应链还未收敛

目前投资市场和资本市场对人形机器人产业的预期显而易见,但考虑到众多主机厂商并未上市,于是部分硬件公司就成为了市场流动性的蓄水池。

这里问题在于,按照特斯拉给予的预期,如果进展符合规划,那么2026年产业将进入量产阶段,这将导致供应链收敛风险:

我们可以看到,对于人形机器人每个硬件环节,前期参与研发和验证的硬件公司均有多家,但如果进入量产阶段,整机厂商在每个环节的实际供应商可能并没有这么多,经验上一般在2-3家,那么在进入量产阶段后,最终未进入供应链的硬件企业将面临预期落空风险。

最后,不谈具体环节和公司,我们想结合产业链的最新进展,对行业做一些展望

首先,未来灵巧手真的是人形机器人身上必不可少的的模块吗?

从任务泛化和环境适配的角度讲,人形机器人的末端硬件,做成五指手的形状也就是灵巧手,几乎是必然选择。

我们可以想象,人形机器人的远期空间在于,它们将能够替代人类任何形式的劳动,而这些劳动所依附的工具,本身都是基于人类的生理特性来适配的。可能有人说,给机器人装上一个锅铲,它就可以直接炒菜,为什么还要费劲给它装一只手,再让这只手拿着锅铲炒菜呢,这岂不是多此一举?

完全不是,因为手是一个媒介,它的作用是连接万千工具,它就像底层代码,或者说像人类的语言,没有手的存在,机器人的通用性自然无从谈起。

另一方面,从数据获取和模型训练的效率来看,灵巧手也具备必然性。

通过上文的分析我们可以了解,灵巧手乃至人形机器人的最大瓶颈之一在于数据量,而怎么获取这个数据呢?最可靠的仍然是来自现实世界的数据。而获取这些数据的最可靠方式,就是直接观察和模仿人类的行为。

如果人形机器人的末端不是灵巧手,那么这个模仿就无从谈起。通过灵巧手,人形机器人的动作可以与人类动作达成最直接的映射关系,这样的数据利用和学习的效率最高,最终动作的迁移也会更自然和准确。

但反过来说,从商业化的角度讲,灵巧手是一个马上可以商业化的产品吗?

我们认为初期阶段,灵巧手的应用仍将首先集中在限定性场景,如特斯拉Optimus可能将灵巧手首先应用在特斯拉内部工厂以进行数据收集和训练;以及某些非成本敏感领域,如科研教育等。而要想真正实现通用性场景的应用,还需要一定的时间。

因为上文谈过,灵巧手的最大瓶颈来自于数据量,而数据的最可靠准确的来源是现实世界,那么这个数据积累过程是无法被绕过的,至少从现阶段看,一定需要足够的场景和足够的时间。

然而,尽管在此过程中,完整的灵巧手方案仍然需要持续打磨,但某些中间形态,却可能首先达到商业化应用的条件,或许是两指,或许是三指,或者较少的自由度,或者某些欠驱动方案,或者相对简化的感知硬件,以满足某些半通用性半专用性的场景。

图:Robotiq的三指夹爪

来源:Robotiq,海豚研究

图:Barrett Technology的BarrettHand三指手

来源:Barrett Technology,海豚研究

关于这种“场景降维”,我们可以类比汽车自动驾驶的演进路径——在自动驾驶的萌芽阶段,部分公司选择直接将L4/L5级别的自动驾驶作为实现目标,而有的公司则选择了一条渐进式路径,先布局L2/L3级别的辅助驾驶,作为行业的入场券,以现金流反哺产品研发迭代。

另外,最近两年,在自动驾驶还未成熟的前夜,无论是特斯拉,还是中国大陆新能源汽车企业,选择首先推出某些场景化的辅助驾驶服务,例如高速NOA、城市通勤NOA、全场景NOA等。

在有限的场景里,通过技术简化和功能限制,来实现一些可商用的、有一定商业价值的产品;同步地,利用这些产品的商业化,积累数据来进一步迭代算法,以逐步逼近终极产品。那么这也是一条可以兼顾现金流可持续性和产品迭代的可行路径。