最近具身智能这个概念很火。那么,究竟什么是具身智能?它包括哪些类别和关键技术?
通过这篇文章,我们来深入了解一下。
“智能”,大家都懂,也就是AI。那么,什么是“具身”?
“具身”是一个很小众的名词,通常都出现在哲学、认知科学领域。它的英文叫Embodied,是embody的过去式和过去分词。
em-表示“进入,使……”,-body表示“身体”。组合起来,就是“使……进入身体”。
Embodied Intelligence(具身智能),顾名思义,就是“使智能进入身体”、“给智能一个身体”的意思。
那么,具身智能,是不是就是“AI+身体”呢?
这样说并不准确。
根据业界的普遍共识——具身智能,除了物理身体之外,更关键的是在于能够“与环境进行交互,在交互中不断调整优化”。
也就是说,具身智能是一种基于物理身体进行感知和行动的智能系统。它通过实体智能体与环境的交互,获取信息、理解问题、做出决策,并实现行动,从而产生智能行为和适应性。
本体、智能、环境,被称为具身智能的三要素。AI领域著名大佬李飞飞也曾明确指出:“具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能。”
举个例子来解释一下:
我们通过手机和电脑使用的大模型(例如ChatGPT和DeepSeek)或虚拟智能体(AI Agent),擅长处理文字、图片、视频等数据,能与我们进行交流并输出信息,功能非常强大。然而,手机和电脑的感知能力很弱,行动能力几乎为零。所以,无法与环境进行交互。
这种智能,就不是具身智能,而是离身智能(Disembodied Intelligence,智能和身体分离、解耦)。
我们打造一个实体机器身体,在上面部署了AI大脑。如果,只有感知能力(有摄像头、传感器等),没有行动能力(没有手、脚、轮子等),或者,只有行动能力,没有感知能力。那么,它也不属于具身智能。
只有同时具备了AI大脑,以及有感知能力、行动能力的身体,能够和外部环境进行实时互动,才是真正的具身智能。
具身智能并不是一个新概念。它的起源,可以追溯到1950年。
那一年,著名科学家艾伦・图灵发表了经典的《计算机器与智能》一文,标志着人工智能理论的奠基。在这篇论文的最后两个段落里,图灵展望了人工智能未来可能的两种发展途径。一种是比较抽象的、像下棋所需的智能,一种则是拥有最好的感官、能学习甚至能说英语的智能。
没错,这两种智能,分别就是离身智能和具身智能。
在那之后,人工智能经历了非常波折的发展阶段。受限于当时的科技发展水平,人工智能的主要研究方向,还是以离身智能为主。
至于身体(机器人),当时完全是一条独立的技术路线,没有什么智能可言,行动能力很弱,感知能力更弱。
世界上第一个机器人——尤尼梅特(Unimate)
1986年,美国计算机科学家罗德尼・布鲁克斯提出了一种全新的智能理念。他认为,智能不一定要依赖于复杂的符号表征和推理,智能体可以通过与环境进行直接的物理交互,以一种更加简单、有效的方式产生智能行为。
罗德尼・布鲁克斯的理论,给具身智能的发展提供了重要的理论支撑。后来,他也开发了一系列机器人,能够在复杂的环境中自主导航和行动,展示了具身智能的可行性和潜力。
罗德尼・布鲁克斯因此被誉为“具身智能之父”。
罗德尼・布鲁克斯
具身智能真正爆发,是进入21世纪之后。
随着信息技术、电子技术、传感器技术以及机械技术的高速发展,发展具身智能所需的基础条件逐渐成熟。
一方面,AI浪潮爆发,出现了功能强大的大模型和智能体,能够对大量的感知数据进行高效学习和处理。
大家都知道AI现在越来越强,但想要将AI能力真正用起来,就必须让它在物理世界落地。这肯定需要一个物理载体。
另一方面,传统的自动化机械,只能完成死板的程序指令,大大限制了它的应用场景。
引入强大的AGI(通用人工智能)大脑,能够提升泛化能力,让机器变得真正聪明,扩大应用场景和范围。
所以说,具身智能是AI发展到一定阶段的产物,是一种新的AI范式。
2023年,英伟达创始人兼CEO黄仁勋表示,人工智能发展的下一个浪潮是具身智能,是能理解、推理、并与物理世界互动的智能系统。这一观点迅速引起了全世界对于具身智能的关注。
2024年,工信部印发《人形机器人创新发展指导意见》,提出要推动人形机器人产业高质量发展。2025年,具身智能更是被写进了政府工作报告,提出要“培育具身智能产业”和“大力发展智能机器人”。
在政策与资本的双重驱动下,具身智能就开始全面爆发了。
今年以来,从年初的春晚机器人扭秧歌,到4月份的机器人马拉松,再到前不久的WAIC(世界人工智能大会)、WRC(世界机器人大会)和世界机器人运动会。我们看到各种各样的机器人刷屏网络和社交媒体,掀起了一股前所未有的“具身智能”热。
业界普遍认为,具身智能有望成为继PC、智能手机、新能源汽车之后的下一个典型智能终端,带来颠覆性的产业升级机会。
具身智能的类别非常多。从功能上,可以分为工业机器人、服务机器人、特种机器人等。从形态上,又可以分为人形机器人、轮式机器人、多足机器人等。
我们来看看这几种常见的形态类别:
●人形机器人
人形机器人是目前最常见,也最引人瞩目的类别。
之所以很多具身智能厂商都喜欢研发人形机器人,并不是单纯因为它酷炫,而是因为它的通用性很强。
人形机器人因为有类似人类的身体结构,可以更方便地使用门把手、楼梯、工具等设施,也能够适应人类工作场景。
人形机器人在交互上也有天然优势。它们可以通过表情、动作与人类交流,比如点头、挥手,甚至模仿人类的情绪,更容易被用户接纳。
逼真的面部容貌
目前,有很多厂商正在研发人形机器人,用于家庭服务、医疗护理、工业生产、物流分拣、零售服务等场景。
各种各样的机器人体育竞赛,例如机器人拳击、赛跑、足球,也是以人形机器人为主,非常考验产品和团队的技术水平。
机器人拳击
● 轮式机器人
轮式机器人主要依靠轮子进行移动,常见于仓储物流、巡检安防等领域。
为了方便工作,制造厂商往往会开发那种“下面是轮子,上面是手臂”的轮式机器人,也叫做轮臂机器人。
轮式机器人的优点主要是移动速度较快,能够快速穿梭在仓库或工厂中,完成货物的搬运、分拣等工作。它们具备较好的环境感知能力,能够在复杂环境中自主导航和避障。
● 多足机器人
比较常见的机器狗,其实就属于多足机器人(四足机器人)。
多足机器人模仿了昆虫或爬行动物的行走方式,具备较强的地形适应能力,灵活性和稳定性更强,可以在崎岖不平的山路、废墟等环境中自由行走,执行勘探、救援等任务。
像机器狗这样的四足机器人,也适合扮演AI宠物这样的角色,用于家庭服务或特殊人群服务(导盲)场景。
● 智能汽车/无人机/无人船……
没错,智能汽车和无人机等设备,本质上也属于具身智能。
它们通过传感器(摄像头、雷达等)实时感知周围环境,并利用AI算法进行数据处理和分析,从而实现自动驾驶、自主导航、自动避障等功能,符合前面说的具身智能定义。
除了以上几种常见类别外,具身智能还包括很多仿生形态。不同的形态,会用于不同的使用场景。
业界现在经常会将具身智能的技术体系分为环境感知模块、运动控制模块和人机交互模块等多个模块。从整体来看,也可以分为本体、大脑和小脑。
一个大致的结构组成范例,如下图所示:
我们来具体看看本体、大脑和小脑这三大核心部分:
● 本体
本体,包括头、躯干、四肢、关节、灵巧手等组成部分,本质上就是机械结构、传感器、执行器、驱动与能源系统、通信系统等。
机械系统是本体的物理框架,决定了机器人的机械强度、运动能力和整体外观。
传感器负责获取外部信息和自身状态信息,包括外部传感器和内部传感器,主要包括摄像头、麦克风、压力传感器、关节角度传感器等。
驱动和能源系统负责提供动力,一般都采用电机、液压等驱动方式。能源则是锂电池、燃料电池之类。
这块的技术非常多,简单罗列如下:
● 大脑
大脑,负责感知、理解和规划,主要通过大语言模型、视觉语言动作(VLA)大模型来驱动。
感知,是基于传感器反馈的信息,实时监测自身的位置、姿态、运动速度等状态,避免动作失衡。这是一个多模态数据融合的过程,难度极大。
在感知的基础上,再进行决策。决策算法需要根据具身智能的结构进行设计,常用的技术包括强化学习(让智能体在交互中试错学习)、模仿学习(模仿人类动作)。
具身智能的算法方案也可以分为分层决策模型和端到端模型两种路线。前者将任务分解成不同层级,以多个神经网络训练,再以流程管线的方式组合。后者则只通过一个神经网络,完成从任务目标输入到行为指令输出的全过程。
大脑的本质就是计算芯片和搭载的算法。因为对算力的要求很高,有时候也会分为云端大脑和本地大脑两个部分,协同完成计算任务。
● 小脑
小脑,负责将决策转化为具体动作,也就是运动控制和动作生成。
这些主要通过运动控制算法、反馈控制系统来实现。我们可以把小脑理解为是将大脑的一部分功能给独立出来,减少大脑的工作负荷。
小脑的关键技术包括模型预测控制(MPC)、力控与柔顺控制、实时响应优化等,技术实现难度同样很大。
具身智能目前的发展热度很高,但它所面临的挑战也非常巨大。
首先,是技术方面的挑战。
刚才,小枣君介绍了具身智能的一些关键技术。里面的很多细分领域,都有极高的实现难度。
例如,在传感器方面,如何在复杂多变的环境中准确地感知和理解外部信息,就是一个大难题。在光线变化、遮挡、噪声等干扰因素存在的情况下,很难保证感知的准确性和鲁棒性。
再例如,在运动控制方面,涉及到力学、动力学、控制理论等多个学科的知识,是一个复杂而艰巨的任务。如何设计稳定的运动控制算法,使具身智能能够在各种场景下灵活、准确地运动,是实现具身智能应用的关键。
我们经常在网上看到有的机器人走路摇晃,步履蹒跚,甚至倒地不起、暴走,都说明产品在“感知-决策-执行”环节仍然存在不少问题,背后还有很多的工作要做。
其次,是数据方面的挑战。
AIGC需要大量的数据集进行训练。具身智能也是一样。
事实上,具身智能的真实环境数据获取成本非常高昂,难以满足广泛、高质量和多样化的需求。
现在,除了基于真实环境的数据采集之外,业界也大量采用基于仿真世界的数据采集。也就是创造一个虚拟世界,在里面进行场景建模,然后训练和学习。
这种方式的数据真实性虽然较差,但规模更大,成本也更低,适合起步阶段使用。
第三,是安全方面的挑战。
我们经常会看到具身智能相关题材的电影。在有些电影中,具身智能也扮演了反派的角色,例如掌握了力量之后,开始反杀人类。
现在公众对具身智能也同样充满顾虑。一方面,担心它被坏人利用(被掌握控制权),窃取了我们的隐私。另一方面,也害怕它真的出现意识觉醒,危害人类生存。
没有什么系统是绝对安全的。具身智能如果要规模普及,必须在安全上得到可靠保证。
第四,是资金和人才方面的挑战。
这主要针对目前大量的具身智能创业企业。说白了,具身智能是一门烧钱的生意。技术研发需要长期的资金投入,需要招聘和维持高质量研发团队。
现在行业热度高,资本追捧,什么都好说。等到时间长了,技术遇到瓶颈,市场打不开局面,很多团队就会死掉,留下一地鸡毛。
除了以上挑战之外,具身智能在工具链、标准化、伦理道德、能源效率等各个方面,都面临很多问题需要解决。这些问题都不是短时间内可以搞定的,需要漫长的摸索和尝试。所以,对于具身智能这个新兴领域,切记不要头脑发热、盲目乐观。
好啦,以上就是关于具身智能的一些基本知识。大家都看明白了没?
根据业界有关机构的数据,2023年,全球人工智能(AI)机器人市场规模达到143.0亿美元,预计到2032年,将达到824.7亿美元左右,复合年增长率为21.50%。
这是一个巨大的市场,充满了机遇和挑战。你是否打算躬身入局,去试一试呢?
参考文献:
1、《具身智能发展报告(2024)》,中国信通院;
2、《中国具身智能创投报告》,量子位智库;
3、《人形机器人行业深度报告》,国元证券;
4、《具身智能,迈向广阔蓝海市场》,中泰证券;
5、百度百科、维基百科、厂商官网等。