王潜,拿下开年最大机器人融资
6 小时前 / 阅读约21分钟
来源:36kr
自变量机器人创始人王潜获10亿融资,他研究AI多年,曾转向机器人领域。他认为具身智能是AI最快落地方向,目标是做具身智能领域的OpenAI。过去两年未将重心放在商业化,预计2026年实现真正商业化。

好久不见,本期《Blue hour》请来的,是刚刚宣布拿了10亿融资的自变量机器人创始人王潜。

想和王潜聊聊,固然是有些势利地因为他融了这么多钱,也是因为在这一波具身和人形机器人创业者里,他是个特别的存在。

生于1988年——没有早一点,也没有晚一点,这个出生年份决定了他在很长一段时间里不像90后同行们那样春风得意。2007年他本科就读清华电子系,09年开始研究AI,恰逢AI在低谷期,深度学习要在2014年之后才迎来一轮爆发;读博转向机器人方向,主导的深度强化学习的技术路径又刚好发展到了瓶颈期;哪怕是赶上这轮具身和机器人热潮,他创立的自变量机器人最初也没顶着光环,融资难言顺利。

一个人,若是想要大干一场,又始终和行业的繁荣期隔了几年时间差,一定对把握改变世界的机会有种执念。更何况,他搞过两年量化基金,赚过钱,开过眼界,这种执念在我看来又显得更为纯粹——去年行业已经快进到订单大战,自变量仍然没急着商业化。当有人问他是不是要做具身大脑的DeepSeek,他的回答是,要做OpenAI那样的公司。技术我评估不了,总之他有让投资人相信的能力。

我对王潜还有另外一重好奇。作为一个当代生活的亲历者,我对风口浪尖上的科技创业者其实并不了解。如果说是这些人决定了未来的走向,那么搞清楚这些人脑子里勾画的蓝图很有必要。

王潜小时候的梦想和机器人无关。他想成为爱因斯坦。这一梦想,后来演变为借助AI研究物理学,再后来变成研发足够聪明的机器人来制造机器。总之,目标是,用先进的技术和生产力来驱动指数级增长。他的世界观是基于统计学和概率,建立在不确定性之上,但他认为社会生活是另一个领域,遵从另外一套截然不同的逻辑。

这当然是一种相当典型的看法,但是不是真理呢?人们总以为自然科学的进步是人类智力的产物,马克思说错了。他说,社会生活有它的基础,自然科学则另有基础,这压根是谎言。至少在马克思看来,两者共有一个基础,就是人的历史生活。

按我的理解,商业和工业推动了自然科学的进展,而科学技术进一步塑造了我们的世界观。不管AI和机器人未来会发展成什么样,人类正活得越来越像AI和机器人。如同被设定好程序般,完成一种机械化生存,大脑高速运转,离心却越来越远,我不知道这会通向怎样的未来。很遗憾,时间有限,没跟王潜聊完这个问题。

如果按照本栏目的惯例,要赋予嘉宾一种颜色,我想选择钛青蓝。这是一种色相稳定的化学合成色。鲜明的深蓝色,厚重的金属质感,泛着冷冽的光泽。很像王潜给我的感觉:他对自己所做的事情有种笃定感,所以绝不能用轻飘飘的颜色。另外,此人明明言谈举止都客气得很——我在深圳的办公室同他握了两次手——但那种聪明人的骄傲劲儿还是不时冒出来。他对团队的技术实力颇为自信,国内同行大概都不在他的比较范围里。这没什么不好的,希望他一直有这样的心气。

搞AI的没人抱着确定性的世界观

刘燕秋:这波机器人创业者很多出自清华电子系。你本科是在清华电子工程系,后来为什么转去读生物医学工程系?很多了不起的人物到了职业生涯晚期开始研究生物学,是因为对生命的奥秘产生兴趣。你转学科的原因是什么?

王潜:我其实一直想做AI,从中学的时候就有这个想法了。更早的时候,比如小学或者更小时候,我本来是想做物理的,后来还差点去了北大物理系。但我慢慢发现,现在做物理和一百年前不一样了。现在的数学和物理领域,想在十年内冲到最前沿基本不可能。哪怕是天才,可能14岁上大学,博士毕业差不多二十五六岁,职业生涯大概三十五六岁就结束了,满打满算也就十年的时间能做核心研究。所以我当时就想,再过一百年,可能数学家、物理学家就没“职业生涯”可言了。要达到领域前沿需要的时间越来越长,对人的智力要求也越来越高,到最后可能没人能胜任这个事了。

所以我高中的时候就认定,还是得搞AI。人做不到的事,可以让机器来做。这就像要驱动一艘万吨巨轮,光靠划桨划得用力没用,关键是要造出能驱动巨轮的好机器。

我本科是清华电子系2007级的,那时候最主流的AI研究方式是统计学习。当时AI领域特别冷,根本没人关心。现在大家熟知的深度学习、神经网络相关的研究,那时候还没兴起。所以我本科期间一直想做AI,但偏偏赶上AI最冷的阶段,完全没人在意这个方向。当时大家都在做统计学习,那有各种基准测试(Benchmark),但每年在这些测试上的性能提升也就0.1%。我那时候就觉得,这方向已经卡住了,哪怕耗上一百年可能也做不出突破性进展,所以还是得找一些范式转变。当时我核心的想法是,应该把人类的神经网络机制借鉴到AI模型里。

刘燕秋:所以你最开始其实是对AI这件事感兴趣,只不过选择的研究路径是借鉴生物学里的神经网络来研究AI,相当于主线一直是AI。当时你想到要用AI推进学科研究,有没有特定的命题想要研究?还是说只是抽象地有这样的设想?

王潜:就是想研究物理学。物理这东西,你可以把它理解成万物的“万有理论”。就像牛顿,为什么大家称他是“自然的立法者”,因为他发现的规律,在某种意义上就是宇宙最本质的规律和道理。我最开始想做物理,就是希望能成为牛顿、爱因斯坦那样的物理学家。当然,在这之前我也喜欢哲学和数学,但还是觉得物理可能是人类所能触及的、最接近宇宙真理的领域。

刘燕秋:我前段时间正好看了一篇文章,大概是讲当代社会基础的世界观,就是建立在牛顿力学基础之上的,或者说被它深深影响了。

王潜:我不这么认为,自从20世纪以后,大家基于量子力学建立的新世界观,和牛顿的世界观就非常不一样了。

刘燕秋:但你不觉得现在主导我们生活的,还是牛顿力学那套机械的世界观吗?

王潜:我不觉得,至少在我熟悉的领域不是这样。就拿AI领域来说,大家都讲概率,没人会说“一定(must)”。在神经网络兴起之前,大家主要做的是统计学习,而统计学习 核心就是讲概率的。这其实也是AI发展的一个里程碑。统计学习出现后,大家才发现,这好像才是世界的本质。所以现在所有做AI的人,秉持的都是统计的世界观、随机性的世界观,没有谁还抱着确定性的世界观。

刘燕秋:那你说的随机性的世界观具体指什么?我可能理解得不太对,比如量子力学里讲波粒二象性,说电子到底是粒子还是波,会受到观察者的影响。它是经过一种关系性的过程,才会呈现出我们看到的状态。这和你说的是一回事吗?

王潜:量子力学里会说,一个东西有50%的概率在这,50%的概率在那,这就是它的表述逻辑。而我们做AI的时候,逻辑也是一样的。比如做手机定位,我看到一张包含手机的图片,并不是100%确定手机就在某个位置,而是会有一个概率分布,比如10%的概率在这,20%的概率在那,50%的概率在另一个地方。你没办法从充满噪声的信号环境里,得到100%准确的手机位置估计。

其实人本身也是用这种概率性的方式思考的,只是我们自己没察觉。我们总会觉得“我非常确定手机就在这”,但事实并非如此。所以我们做AI的时候,也是遵循这个逻辑,所有的方程都不是确定性方程,全是随机方程,里面描述的变量x,本质上都是随机变量。

刘燕秋:我理解的世界观,就是我认为世界是这样运转的,那就按照这一套逻辑和规则作为指导去看待万事万物。比如,在牛顿力学里,一切都可计算,带来的就是基于理性和可预测的思维方式。你觉得统计学讲概率这种看待世界的方式会如何影响到你看待当代生活?

王潜:我觉得人类社会和物理世界的关联没那么大。人类世界也不讲牛顿力学,只讲“叙事”。因为人的认知能力有限,没办法承接所有的信息量,所以我们了解人类社会、理解这个世界,通常都是通过叙事来实现的。但叙事本身是极度简单、抽象的,而且特别容易被篡改和修饰,可也正因为这些特性,它才能把人凝聚在一起。所以我觉得,人类社会主要是依靠叙事逻辑凝聚起来的,这既和牛顿力学无关,可能也和量子力学无关,是一套完全独立的系统。

刘燕秋:OK,说回到你的经历,你的硕士论文算是较早将注意力机制引入神经网络,当时是怎么想到这个机制的?但后来是谷歌进一步研究,主导了如今的Transformer架构。对你来说,这算是一个比较大的遗憾吗?

王潜:对,当时我想,我们之所以相信能做出AI,是因为眼前已经有一个现成的智能系统,人类本身。既然在AI领域迟迟做不出突破,为什么不看看人类是怎么实现智能的呢?但我在2009年进实验室,整个信息学院三个主要系,电子系、计算机系、自动化系,都找不到一个做神经网络的老师。既然没人从AI角度做神经网络研究,我就想,或许可以从生物角度入手,去看看神经网络到底是怎么工作的。也正因为这个想法,我后来转到生医系去研究神经科学了。

“深度学习(deep learning)”这个词2008年才刚出现。既然要做神经网络,核心思路就是把人和动物身上的神经机制迁移到模型里。当时我们判断,什么神经机制比较关键呢?我们觉得注意力(attention)机制肯定是核心之一,因为它和人的意识直接相关。大家普遍有个比喻,意识就像一个剧院,有一束聚光灯照到哪里,哪里就是你能意识到的部分。而这束“聚光灯”,我们认为最直接对应的就是注意力机制。所以我当时就聚焦做了注意力机制的相关研究。

包括我们、谷歌和ETH(苏黎世联邦理工学院)在内的三篇论文,是这个方向最早的成果,时间大概在2014年。现在大家熟悉注意力机制,主要是因为Transformer架构。这个架构是谷歌团队后续持续研究,直到2017年做出来的。说不遗憾是假的,因为我们当时提出的架构,其实比谷歌后来的方案更接近如今的Transformer,但我没能把这个研究继续做下去。

刘燕秋:顺着AI的方向,博士期间你又是怎么把研究方向转到机器人上了?

王潜:大概是2014、2015年的时候,正好赶上第一波AI热潮,“AI四小龙”都冒出来了。但我当时判断,这些AI技术基本只能在安防等领域落地,我对做安防不太感兴趣,所以就想再找个新方向。图像领域不太合适,语言领域又太难,思来想去,机器人可能是AI里能最快、最有用的落地方向。正好那时候我要出国读博,就特意选了机器人相关的方向,也就是现在大家说的“具身智能”,当时我们叫Robotics Learning(机器人学习)。

刘燕秋:所以还是围绕AI这条主线,你又找到了机器人这个方向。那时候机器人研究处在一个什么样的状态?主流的技术路径跟现在有什么不一样?

王潜:做到2018、2019年的时候,我发现当时机器人领域的主流范式——深度强化学习(deep reinforcement learning)明显走不通。我就想,如果这个领域要等30年、50年才能有突破,没必要把青春耗在这上面。不如先干点别的,以后赚了钱再回来资助这个领域,说不定反而能推进得更快。确实有不少人这么做,比如量化领域的Simons,大数学家出身,还有David Shaw,原来是化学家。他们都是在本领域做得不错后,转行做量化赚了大钱,再回头资助科研。所以我就出来自己做了个量化基金,做了两年,效果还不错,也给投资人赚了钱。

当时觉得这样也挺好,打算等个三五十年后这个领域有突破了再回来。梁文锋也是这么干成的,但我入行比他晚,没赚到他那么多钱。

不过到2021年,GPT-3出来了。虽然GPT-3在大众层面没有后来的ChatGPT那么引人注目,但在我看来,这是一个非常明确的范式转变信号。我当时就跟合伙人说,有了这个,可能不需要三五十年,十年之内通用人工智能(AGI)就能出来。如果十年内AGI就来了,我们现在赚再多钱意义也不大,我还是想回去亲自做AI。

我十年前就做机器人,现在再做顺理成章。而且即便ChatGPT出来后,我还是认为语言、视觉这些方向落地难度大。你现在看也一样,真正能落地的其实是写代码。我们当时也考虑过做代码相关,但后来觉得,所有虚拟世界里的事,天然是大厂的优势,带硬件的领域反而更适合创业公司。

另外,Scaling law的趋势已经很明显了,对资源的需求指数级增长。你得用指数增长的显卡数量、电力、数据量,才能换来线性增长的智能水平。那去哪找这么多指数级增长的资源呢?有人可能会说,美国现在有1万亿美元的AI基础设施投资,已经很多了,但下一代AI可能需要10万亿美元,再下一代可能要百万亿美元,整个人类经济系统根本支撑不起。所以,怎么从现实世界、物理世界获取指数级资源,是支撑AI继续发展的核心问题。我们觉得这个问题必须落到具身智能上。

其实从工业革命以来,大家就一直在想“机器制造机器”这件事。一台机器能造10台、100台,100台能造1000台,这样就能实现指数级增长。但直到今天,我们都没看到这一点完全实现,核心原因就是不管是工业还是服务业,所有生产过程都离不开人手,身边没有任何一件物品的制造能完全脱离人力,而且人力参与的成分还很多。这是个明显的卡点。

所以我们认为,只要把具身智能做出来,替代掉这个线性瓶颈,就能实现完整意义上的指数级增长,也才有可能支撑起线性增长的AGI,甚至ASI(超级人工智能)。想明白这一点后,我们就确定,具身智能的价值才是最大的。

我们肯定是要做具身智能领域的OpenAI

刘燕秋:能说说当时做量化基金大概赚到多少钱吗?

王潜:具体数字肯定不能说,但可以支撑我和家人不用工作,也没有太多后顾之忧。

刘燕秋:回到那个时间节点,你是2013年年底出来成立公司创业的,在那个时间窗口出来,你会不会觉得稍微有点晚?听说你一开始融资挺难的,你自己总结是什么原因?

王潜:是稍微有点晚,但也不算特别晚。融资难,一方面是时间因素,但最主要的还是当时大家不认可我们的理论和逻辑。那时候我们就明确要做端到端的统一模型、要做基础模型,但投资人普遍认同的逻辑是做简单的分层模型和聚焦某一个单点场景落地的专用模型。

最近一个月,经常有人跑来跟我说:“还是你当时的看法是对的。”因为过去两年里,在具身智能领域试图做垂直落地的,没有一个成功的。我们当时就说这事肯定做不出来,但那时候没人信。没人信之余,大家还会追问两个问题:第一,你说的这事什么时候能做出来?第二,做出来需要花多少钱?再加上我们是刚成立的公司,一些同行已经融了很多钱,他们就会问“为什么他们做不了,非得你做?”“大公司资源更多,这种烧钱的事为什么不是大公司来做?”全是这类很现实的问题。

所以,还是要感谢早期天使轮和前期轮次的投资人,大家还是很有眼光。

刘燕秋:你感觉到融资变得顺畅是在什么时候?这个转变是怎么发生的?

王潜:每一轮融资都比上一轮顺畅一点,当然肯定有个关键节点,最主要的节点就是PI-0出来的时候,大概是2024年下半年接近年底的时候。

刘燕秋:我之前采访的时候,有人说你一开始讲的是“PI”的故事,为什么大家一定要对标一家美国公司呢?

王潜:PI在当时的全球具身智能领域,技术上绝对是顶尖的。所以这种情况下,你去跟随他们的方向,或者讲他们那样的故事,是没问题的。不过我懂你问这个问题的意思,本质上,我们其实没必要非得讲美国公司的故事。这也是我当初选择回国的原因,我觉得这件事在中国有机会做得比美国更好,我们要做的是从0到1的创新。很多人问我,你们是不是要做具身智能领域的DeepSeek?我一般会跟他们说,这么想格局还是有点小,我们肯定是要做具身智能领域的OpenAI,甚至这件事本质上比OpenAI做的事规模更大。

投我们的投资人都认可这个目标。你看,我们现在营收还不多,但投资人愿意包容我们,核心就是因为他们认可我们的技术优势,相信我们能做成和中国传统的发展路径不同的事。他们相信我们能做出和别人不一样的事,甚至和中国传统创业路径不一样的事——中国传统路径大多是“快速跟随者”,海外有公司做出成果,国内就做第二名到第十名。但投资人愿意赌我们能做赛道里的第一名。

刘燕秋:你一开始讲的是PI的故事,但PI不做硬件,只做模型研发。你是什么时候意识到在中国走这条路行不通,必须要做硬件?

王潜:最开始我们也想过做纯软件,但后来发现这条路确实走不通,只做纯软的逻辑根本讲不通。举个最简单的例子,你买了一个机械臂,商家给你开放了某些API接口,要是这些接口不符合你的需求,需要调整,你就得去跟供应商谈判,一谈就是三个月,他们再修改两个月,半年时间就这么过去了。

其实我们刚开始做一个月后就意识到了。早期我们确实有个小规模的硬件团队,但那时候没觉得需要组建特别庞大的硬件团队。可越往后做越发现,必须要完全、彻底地掌控硬件才行。真正彻底转变想法是在25年初,也就是春节前的1月份,那时候我们实在受不了了,就决定一定要把硬件完全掌控在自己手里,从那时候开始正式组建硬件团队。

刘燕秋:在融资这件事上,我们之前也在文章里探讨过为什么机器人大额融资如此密集,其中一个原因是,同行一旦这么做,你就没办法停下来。你在这件事上意识的转变是因为同行都在卷吗?

王潜:这个赛道的融资,现在根本不是“需要花多少钱就融多少钱”的逻辑,某种意义上是一种身位的拉扯。你融的钱越多,后续就越容易融到更多钱,就是这么个道理。所以大家就开始内卷了。

就像我刚才说的,天使轮的时候,人家会问另外那几家都已经融了10亿了,你现在才融1000万,拿什么跟他们比?它确实是个现实问题,而且很多人都这么想。你说它没道理吧,它好像又有点道理,所以没办法,还是得去融。

刘燕秋:美团那一轮融资对你们帮助巨大?

王潜:美团的帮助肯定非常大,但其实在美团之前的那一轮更关键,就是君联、光速还有北京机器人发展产业投资基金投的那轮。因为在那之前,大家都不认可我们的逻辑,就是我刚才说的PI-0出来之前的那个阶段。当然如果说绝对意义上所有轮次里哪一轮帮助最大,那确实是美团。毕竟有了大厂背书,而且美团既是场景方,又是有钱的互联网大厂,之后大家对我们的认可度就不一样了。

刘燕秋:美团除了投你们,也投了好多家具身智能相关公司。各家是不是都想利用他们的场景,是不是还需要在他们那里争夺资源?

王潜:以前投资人都会说,你有产业投资方,就天然拥有了对方的场景,没有产投方,就进不去这个场景。但现在大家发现,这纯属无稽之谈。产投方的投资和能不能进入对方场景,几乎是完全独立的两件事。

刘燕秋:为什么会这样?大家谈论CVC的优势不就是给钱之外,还能给订单吗?

王潜:对于业务侧来说,他们根本不管投资方投了谁,大家都有自己的KPI。美团也好,京东也好,都是商业公司,不是投资机构,主业永远是第一优先级。所以核心是你能怎么帮助它的主业,而不是让人家的主业来帮助你。

当然,成熟行业或者准成熟行业是另一回事。比如,一件事有10家公司能做,有人能做到10分,有人20分,有人30分,但大家都不是0分。这种时候,产业背景就重要了。因为能做到10分也能满足需求,与其选30分的要付更多钱、收不回成本,不如选10分的,还能在里面占股份,某种意义上能控制它,整体利益最大。但今天具身智能不是这样,现在这个领域里所有人都是0分,谁能先做到1分,谁就有机会,因为这1分对场景方来说是直接的帮助。

刘燕秋:商业化场景落地这一块,你们是从一开始就放在模型研发上,没把重心放在商业化?

王潜:至少过去两年我们是这样的,不把重心放在商业化是我们主动选择的。我当时就有这个判断,也跟所有投资人都讲过。按当时的做法,商业化这件事肯定做不出来。

刘燕秋:做不做的出来,具体指什么?评价标准是什么?

王潜:就是给客户产生正向的ROI(投资回报率)。客户买我们的机器人替代人工,不管是效率更高,还是能更长时间提效,只要能实现这些就算成。但现在市面上,一个能做到的都没有。

刘燕秋:今年好几家具身企业营收已经过亿,甚至超过10亿。所以你现在还是认为,目前没到商业化的合适时间?

王潜:至少过去两年我们是这个判断,现在看确实是对的。但现在这个时间点不一样了,我个人觉得2026年会出现真正意义上的商业化。所以对我们公司来说,明年商业化可能反而会变成重点。

刘燕秋:这个行业一种通行的说法是,机器人不像自动驾驶的汽车,跑起来就能收集数据。所以有些公司会先把机器人放到一些场景里收集数据,说这样有利于技术发展和算法迭代。这套逻辑在你们看来行不通是吗?

王潜:你看现在有谁真的靠这种方式收集到有效数据了?又有谁靠这些数据训练出能用的模型了?一些公司搞的数据集,现在行业内公认没人能靠它训出模型,全是废数据,本质上就是为了讲故事、卖硬件。