独家专访IntBot:从硅谷走向世界,用世界模型做社交给机器人“塑魂”
2 小时前 / 阅读约16分钟
来源:36kr
社交智能改写具身智能价值计算方式,创造“增收”与“溢价”空间。IntBot构建社交基座模型,实现跨本体、跨场景复用,拓宽具身智能边界,成为交互基础设施提供商,全球化布局已展开。

社交智能彻底改写了具身智能的价值计算方式。过往服务机器人的商业价值,始终锚定在“降本”逻辑里,其换算公式永远围绕人力成本。但社交智能创造的是“增收”与“溢价”空间。

具身智能的进化只有一条主线:解构再重构。

用AI 解构人类的行为意图和作业能力,再重构具身智能感知到决策的闭环。在这条主线上,主流选手更钟情于具身智能干活能力的塑造,用更精密的硬件、更极致的算法、更差异化的场景,去复刻人类的体力与技能,塑造物理世界的新生产力。

但人类值得被解构的,远不止作业能力。

这也是一条更少人走的路,但正在显现商业想象力:解构人类的社交能力。这并非在既有模型上外挂一个情感交互模块,也不是 MOE 架构里的插件,而是自下而上搭建一个完整的社交基座,给一个能干活的生产力“塑魂”。

这是一次对具身智能定义边界的重新发问。

它的答案远不止让机器人“能说会道”,也不是在某一个场景里机器人能和你来一场走心的对话。而是让机器人从被动响应执行指令,变成主动靠近,提前执行。且社交基座模型可以跨本体、跨场景,这种能力与人类的社交直觉同源,它贯穿形色各异人群的所有交互、所有任务的底色。

厘清这条主线的真实价值,才能读懂社交智能的真正分量,它不是具身智能的增值功能,而是一个商业上限极高的独立赛道。

IntBot CEO Yang Lei、 CTO Sharon Yang 在和具身研习社对话时,清晰勾勒了社交智能的商业想象力,社交智能辐射范围包括但不限于,本体厂商、终端场景方、解决方案方。从一开始就不是依附于某款硬件、某个场景,而是一套独立于作业能力之外、可横向复用的底层基础设施。这正是 IntBot 坚持 “全开放、不绑定”的底层逻辑,机器人的硬件形态多样化、应用场景终将碎片化,一套能跨本体、跨行业复用的社交基座,能穿透产业链各环节,成为新的价值锚点。

对社交、情绪与人际逻辑的解构,本质上是在为具身智能注入“感知与分寸”。这不是对生产力主线的背离,而是 AI 对人类能力复刻的必然延伸,人之所以能完成复杂协作、建立商业信任、形成情感连接,依靠的从来都不只是精准的动作与明确的指令。

今天的具身智能,绝大多数资源与注意力仍集中在“让机器人更能干” 这件事上,这些硬指标定义了行业的准入门槛,也构成了当下商业化的基本盘。但当作业能力的边际效益开始递减,真正能拉开产品价差、构建用户粘性、打开家庭与大众消费市场的核心变量,恰恰是这种难以量化的 “懂人” 的能力。

这或许就是社交智能这条少有人走的路,最核心的产业价值:它没有改写具身智能的进化主线,却实实在在拓宽了这条主线的边界。在此之前,我们讨论具身智能,总在追问“它能产生多少劳动价值”;在此之后,我们或许要开始回答另一个更本质的问题,它能在多大程度上,理解人、连接人、走近人。

世界模型基座:Know how是最深护城河

“如果通用基座模型能力跃迁,会吃掉社交智能基模吗?”

“不会”。

Sharon Yang 的回答干脆利落,这份笃定背后,是对社交智能技术壁垒的清晰认知,它不是通用大模型能力在社交场景的简单延伸,而是一套完全独立的、基于世界模型搭建的完整技术体系。

IntBot将社交智能构建为一个面向真实人类环境的社交世界模型,并通过三层能力实现从理解人到做出符合人类预期行为的完整闭环。

第一层是社交感知层:系统输入人的语言、微表情、肢体动作,以及环境、场景、人物关系等上下文信息,输出对人当下状态与潜在诉求的预判,核心回答“面前的人此刻需要什么”。

第二层是社交推理层:基于感知层的判断,结合场景规则与社交逻辑完成决策推导,比如“炎热的夏天顾客需要冰水”,将模糊的感知转化为明确的行动目标。

第三层是行为规范层:将推理结果拆解为可执行的多模态动作序列,协调机器人的运动系统、语音系统与表情系统,最终输出完整的交互行为,不仅是递上所需物品,同时伴随恰当的问候与肢体动作,形成符合社交分寸的完整反馈。

简单来说,这是一套端到端的社交闭环:从环境与人的多模态感知输入去理解社会环境,到社交逻辑的逐层推理,最终输出语言、动作、表情协同的全身级交互结果,而非单一的文本或语音应答,并据此作出符合人类预期的行为。

这套架构最隐蔽也最坚实的技术壁垒,在于感知层的前置预判能力,它不需要等待人类用语言明确发出指令,仅通过微表情、肢体姿态等非语言信号,结合场景上下文,就能预判人尚未说出口的诉求。最典型的场景是酒店大堂。雨天,一位顾客浑身湿漉地快步走进门。模型能力加持下,机器人无需上前询问“请问有什么可以帮您”,而是会直接取来干毛巾与温水递到顾客面前。整个交互没有指令触发的环节,却比任何标准问答都更贴近真实的服务体验,就像熟悉的朋友或家人,总能在你开口前,就察觉到你的需要。

这恰恰是通用基座模型很难自然涌现的能力。

真实的社交交互,绝大多数信号是非语言的、隐性的,它没有标准正确答案,只有“得体” 与 “不得体” 的分寸之别。这种能力无法靠通用语料的规模堆叠自然获得,它需要专门的交互数据集、专门的训练目标、专门的社交评价体系,以及专门针对物理世界实体交互优化的世界模型架构。

这就是IntBot用know how修筑的护城河。

Yang Lei表示,目前 IntBot 团队中不乏有认知科学背景出身的伙伴,并在模型训练时加入了大量人类的行为心理学,用于强化机器人的感知能力和行为逻辑解读。此前,美国知名高校联合 IntBot 开展联合研究,凭借关于IntBot 社交机器人 Nylo 的研究成果拿下了 Best Paper。这里有个比较有意思的是,IntBot 对人类情感逻辑的拆解不仅仅局限于机器人该做什么反馈这一个外显上,还会针对人类共性的心理认知问题,设计机器人的表情、外观等赋予机器人自我认知能力。

Sharon Yang 进一步补充道,社交智能所需的数据与传统机器人训练数据存在本质差异。相比高度规范化的数据采集环境,IntBot 更关注能够反映真实人类行为模式的多源数据,包括互联网视频、仿真环境以及真实世界的人机交互数据。这些数据能够帮助模型学习人类在现实环境中的表情、姿态、距离感、注意力和社交互动规律。随着机器人持续部署到酒店、机场、展会等真实场景,系统不断积累真实的人机交互数据,并持续反哺模型训练,逐步形成“部署越多—交互越多—模型越懂人—部署更多”的正向循环。这种来自真实世界的人机交互数据积累,也正在成为 IntBot 社交智能平台最重要的长期壁垒之一。

把 IntBot 的社交智能这条路放在更大范围的具身智能落地来看,当所有机器人都能听懂指令、完成基础任务,产品体验的分水岭就会从“能不能做”,转向 “做得舒不舒服、懂不懂分寸、能不能让人产生信任”。前者是通用能力可以覆盖的行业下限,后者才是社交智能定义的体验上限。

跨本体、跨场景,商业不设限

机器人具备社交能力,这件事在当下的具身智能产业语境里,很容易被归为“锦上添花” 的非核心功能,感性的交互价值很难被放进严谨的商业模型里。

这种认知差,IntBot 在融资路上感受得尤为真切。Yang Lei 坦言,不少投资人会把社交智能窄化为情绪陪伴、宠物式交互,甚至只是一段更富表现力的语音合成。在主流判断里,这是依附于硬件本体的增值模块,撑不起独立的赛道体量。

但这恰恰是对社交智能最核心的误解。专访前,在澳门 Beyond Expo 论坛上,Yang Lei 在和具身研习社圆桌对话时就表示,社交智能不是单维度的交互功能,也不局限于某一类场景、某一种硬件形态,而是一套可横向复用的底层基座能力。

IntBot 的社交基座可以与各类 VLA 模型并行部署,共同构成机器人的完整大脑。如果说作业模型赋予了机器人 “动手做事” 的躯体,搭建起物理世界的生产力底座;社交基座就是为这具躯体注入 “懂人共情” 的灵魂,让冰冷的工业产品拥有拟人化的交互分寸,真正以协作伙伴的身份融入人类的生活与工作场景。

用一个真实案例来看,搭载 IntBot 模型的机器人走在人流熙攘的时代广场会主动和陌生人打招呼进行交流,即便是周围围满了人,机器人依旧能够通过视觉和语音信息精准识别与其对话的人,实现自然的一对一交流,而不会受到周围人群和噪声的干扰。短暂交流告别后,机器人又在路上逛了一会再遇到刚刚对话的陌生人,依旧记得对方是谁,刚刚聊过什么。陌生人一句“ see he remembers me ”就是对社交智能最好的注释。

而这种能力叠加以底层基座的定位切入,从一开始就决定了IntBot 的商业天花板。

硬件端,他们坚持横向兼容的开放路线。在 IntBot 的判断里,机器人产业很难像汽车那样最终收敛为少数几种标准化形态,家庭、工业、服务业的需求差异天然巨大,必然会催生出形态各异的硬件产品。这意味着,大脑层的最优策略不是押注某一家本体厂商,而是广泛对接各行各业的头部玩家,尽可能覆盖更多产品形态与应用场景。目前 IntBot 已与多家出货量领先、技术路线各异的本体厂商达成合作。

场景端,IntBot 同样遵循 “有侧重、不绑定” 的思路。在他们看来,社交智能是一种通用底层能力,其渗透边界可以覆盖千行百业,过早绑定单一场景反而会禁锢自身的商业上限。现阶段落地重心集中在服务业,优先切入酒店、机场、零售、医疗、养老陪伴等多个高潜力细分场景。

目前场景侧的合作伙伴主要分为两类,各自对应不同的互补逻辑:第一类是垂直行业解决方案提供商与场景运营商。以 IntBot 早期合作的两家酒店客户为例,其自身既运营线下酒店物业,也对外输出完整的酒店智能化方案;社交智能大脑作为整体方案的核心组成部分,随合作伙伴的渠道体系一同拓展更广的市场。第二类是机器人行业的分销商与经销商。这类玩家原本具备成熟的客户触达与线下服务能力,但过往客群多集中在教育科研、文娱表演领域,缺乏支撑 24 小时无人服务所需的持续 AI 迭代能力与远程运维体系。社交智能恰好补齐了这一核心短板,帮助渠道伙伴跳出硬件价格战的红海,切入价值更高的商用服务市场。

这种“全开放、不绑定” 的策略,本质上是在押注具身智能产业的终局格局:当硬件形态注定碎片化,不存在一款通吃所有场景的终极产品,那么一套能跨形态、跨场景复用的核心能力,才有可能抬高自身在产业链的价值节点。

这很像 PC 时代的操作系统逻辑,硬件厂商百花齐放、轮番迭代,但底层系统的价值会随着生态规模的扩大呈指数级增长。社交智能基座的商业飞轮与此同源:接入的本体越多、覆盖的场景越广,真实人机交互的数据积累就越丰富,模型的社交理解与预判能力就越强,反过来又会吸引更多合作伙伴加入,形成正向的规模效应。

更关键的是,社交智能彻底改写了具身智能的价值计算方式。过往服务机器人的商业价值,始终锚定在“降本”逻辑里,其换算公式永远围绕人力成本。但社交智能创造的是 “增收” 与 “溢价” 空间,目前 IntBot 模型加持下,很多人都会在机器人面前驻足,沟通长达十五分钟,改变了以往人和机器人一问一答式碎片交流。这种交流和感知识别能力,让机器人在酒店里更贴心的服务机器人能提升客评与复购率,养老场景里更懂老人的陪伴机器人能拉高付费意愿,零售场景里更懂察言观色的导购机器人能提升转化效率。这些价值没有明确的人力对标,其商业弹性远高于单纯的人力替代。

从这个维度看,IntBot 要做的是具身智能时代的交互基础设施提供商,并悄悄搭建起了属于自己的商业护城河,这关乎的不只是一家公司的体量,更是整个人机交互范式的重构。

从硅谷走向世界

2024 年成立于美国加州森尼韦尔的 IntBot,从诞生第一天起就带着鲜明的技术底色。

作为联合创始人兼 CEO,Yang Lei 职业路径本身就暗含了 IntBot 的技术基因。其毕业于清华大学,并拥有加州大学圣巴巴拉分校计算机科学博士学位,曾任职于阿里巴巴旗下蚂蚁集团,担任 AIoT 事业部总经理;更早前他在英特尔实验室主导多项前沿研究与产品落地项目。累计发表学术论文 30 余篇,手握 30 余项美国专利。过往多元化的发展经历,让他对 “机器人如何真正融入物理世界与人” 有着比纯大模型背景创业者更具象的判断,这也是他笃定社交智能是具身智能下一核心变量的根本原因。

联合创始人兼CTO Sharon Yang 拥有伊利诺伊大学厄巴纳 - 香槟分校(UIUC)计算机工程博士学位。曾任英特尔资深首席工程师,主导全球跨学科工程项目与企业级创新业务,推动多项技术落地于英特尔全产品线及合作伙伴生态体系,研究领域覆盖边缘 AI、AI 系统、机器人、无人机与先进无线通信等方向,在全球范围内拥有 161 项授权专利,发表 37 篇经同行评审的学术论文,同时深度参与行业标准制定。

技术的底气,最终体现在落地的广度与深度上。如今 IntBot 的全球化商业版图已清晰铺开:北美、亚太等多个国家均有项目落地,客户覆盖硬件本体厂商、行业解决方案商、企业级运营商等多元主体。

其机器人已经在美国圣何塞米内塔国际机场、纽约 The Nap York酒店、拉斯维加斯的 Otonomous 酒店,俄克拉荷马州的万豪酒店。而且是全天候和人类员工并肩工作,不间断运行。还出现在 NVIDIA 的 GTC 大会上,和来往的听众交流,全程以非脚本化的自然交互与参会者沟通,直观验证了社交基座跨硬件的通用能力。

2026澳门Beyond Expo 现场,作为亚洲地区的创新展会,来往人群十分多元化,IntBot 机器人接待了来自不同国家、不同文化的人群。还拿下了最佳创新奖。

今年5 月,IntBot 与新加坡大型运营集团 Certis 达成战略合作,将社交智能引擎落地当地高流量公共场景的人形礼宾与服务辅助业务,正式进入东南亚企业级服务市场。在中国市场,其已与多家头部本体厂商建立合作,社交基座的能力正快速渗透到服务场景的各个环节。

这种跨地域、跨业态、跨硬件的落地效率,根源在于社交智能的底层通用属性。对人类情绪、隐性诉求与社交分寸的感知逻辑,不因语言、文化、硬件形态的切换而失效。这让IntBot 的全球化天然具备轻量化特征:无需为单个市场重构底层模型,无需自建硬件产线,只需在通用基座基础上做本地化的场景适配与数据微调,依托合作伙伴的硬件、渠道与运营能力,即可快速完成商业闭环。

从硅谷的技术原点出发,IntBot 走的不是硬件产品出海的老路,而是底层能力生态化扩张的新路。技术研发扎根硅谷,落地合作遍及全球,以开放基座的身份接入各地产业链,让社交智能的价值随着伙伴的业务边界自然生长。这既是一家技术公司的战略选择,也暗合了具身智能产业分工的终局:当硬件形态与场景终将多元化,真正能穿越地域与周期的,是可复用、可兼容的底层能力。

而社交智能,正在这条能力赛道上跑出全球化节奏。