图片来源:No Priors
Z Highlights
人类拥有空间智能,它是我们核心智能能力的一部分。动物也有空间智能。整个进化历程也与空间智能的进化深深交织。因此,它是如此基础。没有空间智能,AI将是不完整的。
我们必须意识到,与语言模型甚至空间智能基础模型不同,机器人学是一个高度多模态的系统。在我看来,真正未被充分重视的是触觉,这里有太多可探索的,特别是如果我们想做操作,而不仅仅是导航。触觉数据以及将触觉真正集成到视觉、感知和空间数据中的能力绝对至关重要。
爱、人际关系、所有社区的普遍繁荣、正义——这些是真正重要的价值观。任何机器,无论是AI、飞机还是生物技术,都不应剥夺这些。但在牢记这些关键价值观的前提下,拥有AI来增强我们确实非常重要,因为有太多未解决的问题。
李飞飞,著名的人工智能专家和斯坦福大学计算机科学与电子工程系的教授,因其在计算机视觉和深度学习领域的开创性工作而广受认可,被誉为“AI教母”,后创办了World Labs,专注于空间智能领域。本次访谈由No Priors发布于2025年6月,她剖析了World Labs背后的人文和技术动机,还讨论了3D世界建模面临的挑战、她组建卓越团队的策略等等。
创业初心:点燃空间智能新火种
Sarah:听众们大家好,欢迎回到《No Priors》播客。今天的嘉宾是李飞飞,她是计算机视觉和深度学习领域的先驱。她创建了具有开创性的ImageNet数据集,帮助点燃了深度学习革命。李飞飞是斯坦福大学教授、Stanford HAI(Institute for Human-Centered AI)的联合主任。她曾领导Google Cloud AI,为国际政策制定者提供建议,并最近共同创立了World Labs公司,致力于开发具备空间智能的AI。飞飞,非常感谢你今天加入我们。
李飞飞:谢谢邀请,这将会很有趣。
Sarah:你在过去二十年中对科学和政策做出了非凡贡献。我想从一个最重要的问题开始:为什么选择现在创业?
李飞飞:因为在我心里,我想要创造。现在是一个至关重要、令人兴奋和有趣的时刻,可以打造一些每个人都能使用的非凡技术。我深信空间智能以及那种能够赋能众多人群和场景的3D世界模型。这将会非常激动人心。而且我可以和一群才华横溢的年轻技术专家一起实现它。
Sarah:我想回头谈谈与你共事的人。我认识你的一些联合创始人,之前曾极力说服他们创业。后来他们说:“哦,不了,我们现在和飞飞有更宏大的使命。”那么,什么是空间智能?你能为更广泛的听众定义一下吗?
李飞飞:对我来说,空间智能是指理解、推理、交互和生成3D世界的能力。因为我们的世界从根本上就是3D的——物理上是3D的。在数字领域,如果有真正的3D表征,我们就能更轻松地实现很多事情,无论是设计、创作、导航、仿真,还是AR、VR的体验。这对我来说都是空间智能的一部分。真正让我兴奋的是,人类拥有空间智能,它是我们核心智能能力的一部分。动物也有空间智能。整个进化历程也与空间智能的进化深深交织。因此,它是如此基础。没有空间智能,AI将是不完整的。
Elad:这如何转化为你在公司的工作?或者,关于你所构建的内容,你能分享些什么吗?
李飞飞:是的,我们正在攻克AI中最困难的问题之一:构建本质上是3D的世界模型。因为一旦攻克了这个问题,就能解锁许多空间智能问题。据我们所知,我们是首家解决3D生成基础模型问题的公司。
Sarah:我有很多问题。既然你首先描述的是3D对于理解世界的至关重要性,这是否意味着你认为World Labs、学术界或其他公司创建的世界模型,终有一天会达到真实物理层面的精确,能够代表物理法则并理解世界,从而让我们能做更多事情?
李飞飞:是的,它应该做到真实精确或合理。你可以创造一个奇幻世界,但它应该是合理的,因为其几何和物理需要是合理的。这对空间智能至关重要。
Sarah:这是否意味着你从神经科学角度持有特定观点,比如视觉智能的基础性?我的意思是,你一直是计算机视觉的领导者。但视觉智能相对于大型语言模型和文本智能有多重要?
李飞飞:我确实持有这种观点。从神经和认知科学的角度看,空间智能是进化必须为动物解决的一个非常困难的问题。有趣的是,动物在一定程度上解决了它,但并未完全解决。这是最困难的问题之一,因为动物必须解决什么问题?动物必须进化出通过眼睛收集光的能力。然后,凭借收集到的信息,它们必须在脑海中以某种方式重建一个3D世界,以便导航和行动。当然,它们还能互动。对人类来说,我们是操纵能力最强的动物。我们能做很多事情。
所有这些空间智能,都植根于我们的智能。有趣的是,这并非一个已完全解决的问题。即使对动物也是如此。例如,对人类,如果我让你现在闭上眼睛,画出或构建出你周围环境的3D模型,这并不容易。除非经过训练,否则我们没有能力生成极其复杂的3D模型。我们中有些人,无论是建筑师、设计师,还是经过大量训练和极具天赋的人,能做到这点。但这很难。想象一下,你能在指尖轻松完成,并实现更流畅的交互性和可编辑性。那对人们来说将是一个完全不同的世界。
AI未来:探索情感智能与空间智能新领域
Elad:除了3D和世界生成这类大问题之外,从模型视角或其他缺失环节来看,你认为还有哪些尚未充分发展的重大领域?或者在我们为AI未来构建时,应该长期关注或发展的方面?
李飞飞:我们在某种程度上“解决”了语言问题。语言在很大程度上已被解决。而3D对我来说,与语言同等关键且困难。那么还有哪些?整个情感智能领域,我甚至不知从何入手解决。我知道还没有人解决它。也许那要等到AGI实现之时。
Sarah:我可以告诉你,这方面的训练数据肯定不会来自硅谷的人。
李飞飞:别低估硅谷的能力。是的,所以...
Sarah:我会把自己归入这一类,但我们可能需要更广泛的人群。
李飞飞:是的,没有那么愤怒。但老实说,就是这三大类了。我不知道,Elad和Sarah你们怎么看?
Elad:这在很大程度上取决于你如何将内容封装到每个模型中。我同意你的框架,即这三个方面。然后某些方面,比如空间智能,也涉及到不同类型的物理仿真和世界模拟,这些都是很多人尚未涉足但非常有趣或重要的领域。这其中还有宏观和微观尺度之分。微观尺度最终会演变成材料科学等与你们所谈内容非常不同的领域,比如分子建模等。
李飞飞:是的。另外,有人会提到当前AI的定义,我当然认为机器人学会得到赋能。但机器人学在很大程度上是一个系统集成问题,就像即使你看动物,也不仅仅是大脑本身的计算。
Elad:是的,其中很多东西在空间智能方面似乎更加分布式,相对于动物拥有的特定系统而言。在某些情况下,正如你所言,并不像人们想象的那样集中化。因此,开始思考生物体内更分布式的智能模型相对于中枢神经系统的模型,这是非常有趣的内容。
机器人:具身智能与形态多样性
Sarah:飞飞,你在机器人和物理智能的领域也进行过工作。我想到机器人基础模型和执行的数据层级。当然,人们想使用视频,因为这是我们可以获得的。关于仿真以及目前能从中获得多少,存在一个大问题。或许人们还没有看到未来我们将拥有的仿真质量和物理精度。然后还有接近具身的不同形式的遥操作,以及具身数据收集。这是你脑海中有的层次结构吗?还是你认为人们低估了仿真和世界模型对未来的作用?
李飞飞:好问题。首先,正如你所说,我确实在机器人学领域工作过,特别是在斯坦福的实验室里。我毫不怀疑人类将进入一个与机器人共生的时代,而且机器人本身并不一定是人形的。机器人会呈现各种形态和形状。实际上,几年前我的实验室写过一篇非常有趣的论文,关于形态智能,即智能体的形态,可以通过优化其试图完成的任务来改变。因此,我们应该比仅仅局限于人形更有想象力。
话虽如此,如何训练机器人?你提到了整个数据问题,有人称之为数据金字塔或数据蛋糕。这将是多种不同形式数据的混合。我也认为仿真被低估了。实际上,很多该领域的专家和人士并没有低估它,许多机器人公司,他们都在研究仿真和合成数据。
我们必须意识到,与语言模型甚至空间智能基础模型不同,机器人学是一个高度多模态的系统。在我看来,真正未被充分重视的是触觉,这里有太多可探索的,特别是如果我们想做操作,而不仅仅是导航。触觉数据以及将触觉真正集成到视觉、感知和空间数据中的能力绝对至关重要。
Elad:你提到的一点我觉得非常有趣,即机器人可能适应或采用的不同形态有多少种?关于潜在未来,人们通常有两种相反的观点。一种观点认为,从供应链和管理制造规模的角度看,形态因子会非常少。另一种观点认为,专业化的经济价值非常高,因此在我们迈向机器人驱动的未来时,会有成千上万种不同的形态因子。你对这两种观点之间,我们可能的走向有何看法?
李飞飞:我们将梯度下降地朝着生产力和效率的优化迈进。我的假设是,不同任务的需求差异巨大,只采用很少的形态或固守一种形态是能源低效的。许多任务应该由能源效率高得多的形态因子来完成。举个极端而简单的例子:如果我们把机器人放在水下,它们就不应该是人形,而最好是鱼形。想想能源效率。飞行也是如此。我不认为人形是我们未来机器人的形态... 飞机正变得越来越像机器人。所以形态会是多样化的。
Sarah:机器人学是未来的一个潜在应用领域。你首先是科学家,但也参与过Twitter董事会和初创公司。对于生成3D世界,你能想象到哪些近期的商业应用?
李飞飞:我相信创造力是一个极其令人兴奋的领域,人类可以通过AI和空间智能获得超能力。这里我类比一下软件工程。看看今天LLMs在软件工程上的成功,包括像Cursor和Windsurf等应用,你会看到大量AI与人类之间的协作。这种协作发生在不同技能水平上。
创造力是相似的:无论是设计师、3D艺术家、VFX艺术家,还是营销人才和游戏开发者,在设计和创造3D空间方面存在巨大需求。这从根本上来说是一个非常困难的问题,即使对于训练有素的专业人士也是如此,拥有一位协作伙伴将会非常有趣。因此,创造力是一个真正令人兴奋的领域。
我们一直在等待的元宇宙或AR、VR的核心是内容创作。我理解硬件本身需要持续演进,但我也认为我们期待的软件是内容创作,而这天然地适用于3D建模和生成式空间模型。这是另一个值得关注的有趣领域。
Sarah:你是否持有强烈观点,认为世界模型是实现更通用智能体的可扩展强化学习的一个有趣的解决方案?
李飞飞:我确实这么认为。正如我所说,没有空间智能的AI是不完整的,因为人类在3D世界中互动。在数字世界中,我们需要各种交互。以设计为例,我们在设计时思考如此之多,在脑海中优化着美、效率或其他目标。这非常自然地适用于强化学习的设置。
3D领域的最大挑战:模型的设计与训练
Sarah:在设计和训练世界模型的道路上,最大的挑战是什么?我猜想一个是数据问题——你研究过图像、视频,但我们现在有的是图像和视频,而不是像你们正在构建的那种3D世界格式的数据,对吧?
李飞飞:数据绝对是一个挑战。要创建世界模型、那些3D基础模型,我们需要越来越复杂的数据工程、数据获取、数据处理和数据合成。我羡慕我的NLP、LLM同事们,互联网上的数据如此丰富,而我们不一定有这种便利。这绝对是一个挑战。
另一个挑战是--3D。我们每个人每天都在使用3D,在各种场景下。基本上,你睁开眼睛,所经历的整个生活就是3D的。但相比于语言,3D并不是一种容易交付到人们手中的形态因子。语言是如此简单,而且它是一种非常主动的形式,不是被动观看。没人醒来会说“我就坐在这里看3D”。因此,这对产品化以及如何以正确方式实现它带来了挑战。
Sarah:你曾是《第二人生》或者类似的游戏玩家吗?
李飞飞:我不是游戏玩家,但我的孩子们喜欢《我的世界》。
Sarah:我想问问你是否有一个想体验或想象的世界?
李飞飞:我很想看到我看不到的世界,例如,放大再放大进入微观世界,或者进入发动机内部,了解真实的发动机是如何工作的。当然,理论上我知道它是如何工作的,只是想亲眼见到并体验它,或者甚至,可能你会笑,但我想要在洗碗机里待一待,看看那是什么样的。如果我们能设法创建任何事物的世界模型,这可以通过虚拟方式实现。
博士岁月:ImageNet的诞生与数据的重要性
Sarah:好的。我和Elad都想稍微谈谈你的过往职业生涯,也许能给正在做研究或试图在AI领域产生影响的人一些见解。在开始之前,我问了Andrej Karpathy应该问你什么,他说:“飞飞在雄心壮志和思考数据方面真的很神奇。你应该问问她关于她的博士经历以及和Pietro创建Caltech-101数据集的事,因为这很有启发性。”所以我必须问你这个问题。
李飞飞:首先,当你的学生比你更知名、成就远超过你时,那真的是一件很棒的事情。这让我非常自豪。Andrej让我非常自豪。我很惊讶他还记得我的博士工作。那要追溯到2003年左右,世界才刚刚触及互联网的表面,数据还很少,我们当时在做计算机视觉。我的博士工作真正试图让物体识别发挥作用。这就是当你看到一张图片时,识别出猫、狗、微波炉、椅子等等的问题。我们开始假设数据很重要,但我们当时毫无头绪。没有扩展定律。我们不知道数据能走多远。我们只想要的是,如果我们有一个机器学习算法,无论是当时很流行的神经网络、贝叶斯网络还是支持向量机,我们都需要一些数据来训练,但没有数据可用。
作为一名博士生,你想要毕业。Pietro就说:“飞飞,去整理一个数据集。”我当时想:“我确实需要创建一个数据集,因为现有的每个数据集都太小了,我不信服。”我和Pietro在讨论,我说了15或30个不同的类别。然后天哪,这位博士导师设定了三位数:100。我当时想:“这工作量很大。”但我内心深处知道,从数学角度他是对的——为了推动模型的泛化能力,我们至少需要足够的数据。
我在我的自传《我看见的世界》中写过这个过程:我偶然发现了一本字典,我想是韦氏词典Webster,如果我没记错的话,随机地附有一些词语的视觉描绘。老实说,我甚至不知道它们遵循什么规则。有些是花,有些是自行车,有些是狗。我当时想:这可以算作一种作弊工具。我抓取了其中101个词。这让我的博士导师有点忍俊不禁,因为他说:“是啊,你就是要比我要求的100多做一个来挑战我。”这就是我做的。我记得我那时从Google下载或尝试下载,Google那时还很新?Google图片搜索当时也非常糟糕。我不得不做大量的清洗工作。有段时间我太绝望了,就让我妈妈帮忙清洗图片,因为我在电脑上写了个小界面。她不懂电脑,但至少知道点鼠标。所以她帮我做了一些清洗工作。
Elad:你在AI领域拥有最传奇的职业生涯之一。正如你所说,你的许多学生也在该领域、工业界乃至全世界做出了非常伟大的成就。回顾你迄今为止的职业生涯,有哪两到三个时刻你最为铭记呢?显然,你在图像和视觉识别相关系统等方面做了很多事情。回顾过去20年,什么最让你印象深刻?
李飞飞:哦,谢谢你的提问。当然,ImageNet是一个由多个时刻组成的历程:从早期的挣扎和被告知拿不到终身教职,到Amazon Mechanical Turk来“救援”的时刻,再到AlexNet获胜的时刻。还有几年前,在多伦多与Geoff Hinton一起参加活动时,他公开表示那是多么具有决定性。他几乎有点歉意,说尽管我没有像神经网络那样获得同等认可。这段旅程非常有价值。对科学家来说,价值不在于认可或奖项,而在于你带来了改变——那些没人相信的猜想、没人相信的假设,我们让它发生了。这是一条主线。
Sarah:为了确保来自商业领域的朋友们理解,ImageNet是一个包含数百万标注图像、数千个类别的大规模数据集,不只是101个,对吧?
李飞飞:是1500万张标注图像。
Sarah:1500万张标注图像。谢谢飞飞。这推动了深度学习的惊人突破,特别是AlexNet,以及该领域的许多进展。
Elad:是的,为它提供了很多使命感和愿景。我记得在2016或2017年,我经常展示一张幻灯片,关于AI的历史,那时主要是CNNs和RNNs,Gans刚刚兴起。我把ImageNet和AlexNet列为真正定义AI进步的少数几个开创性时刻之一。显然现在我们有了Transformer,也许还有扩散模型等。但那真是一个巨大的突破。
李飞飞:谢谢。另一个我非常自豪的时刻是Andrej和Justin Johnson的博士论文。在我看来,那是语言和图像首次通过为视觉世界添加标题和编写故事而融合。这对我意义重大有两个原因。其一,毫不夸张地说,在我博士毕业时,我曾想如果我能活到100岁,我们或许能解决为图片讲故事这个问题。因此,我进入职业生涯--第一年助理教授时,想的是:我要解决图像识别问题,然后我将花费整个职业生涯的剩余时间去解决这个讲故事的问题。
然后,当Andrej,稍后是Justin Johnson来到我身边时,突然间,序列模型在当时是LSTM与CNN的结合,开启了图像描述的工作。我和Andrej的工作是最早发布的。这对我来说,让我无比自豪。几乎让我陷入一种危机感——我接下来该做什么呢?我的余生还有什么值得做的呢?那真是一个令人激动的时刻,看到这个领域的发展如此迅速。
创业建议:无所畏惧,探索AI新边界
Sarah:我能再问一个关于这个的问题吗?因为你取得了如此惊人的进展,而且非常高效。你和我之前私下谈过,你认为在大型企业资助的实验室之外,AI研究中拥有登月计划和创造力非常重要。你提到过几个时刻,这些时刻都源自学术界的创意研究。你对这些年轻人有什么建议?现在,除了那些数十亿美元的训练运算外,是否还有机会呢?还是现在一切都只剩下大公司和巨额资金了?
李飞飞:我唯一的建议,就是我在我的实验室和团队里常常说的那句:无所畏惧。科学家、技术专家和企业家必须无所畏惧。最终,你得弄清楚是否需要10亿美元的计算资源,或者当你找到Sarah时,就能找到更多有趣的途径。
Sarah:可能两者都需要很多。
李飞飞:是的。或者你必须弄清楚,有时,“无所畏惧”是一种非常有趣的状态:你既有点妄想和疯狂,又有点理性的大胆。它介于两者之间,因为如果你太理性,勇气不够,你就无法识别足够大的问题;但如果你完全疯狂,那我不知道,很多事情都可能出错。所以要无所畏惧,要勇敢。对我来说,即使我这个年纪了,我依然这么觉得。我创办World Labs这家初创公司,就是想要无所畏惧地去解决空间智能这个问题。
Elad:作为解决问题的一部分,你长期与一些世界上最优秀的AI研究人员和工程师合作过。在你的公司背景下,你如何看待这一点?你想招聘什么样的人?目前有开放职位吗?你已经领导着一个了不起的团队。我很好奇你想增加什么样的人,以及你对此的长期思考。
李飞飞:是的,我们有开放职位,我们非常希望此时为公司招聘最优秀的工程师和产品思考者。所以,如果你是工程师、AI研究员或产品人才,并且热衷于加入最有才华的团队来解决这个问题,请加入我们。
我们招聘什么样的人?首先,思维多样性。这是为什么称我们为AI公司,但如果你看看内部,我们有计算机图形学专家、计算机视觉专家、数据专家、生成式AI专家、机器学习专家、优化专家等等。实际上,招聘一群背景多样、真正有才华的人非常重要,因为空间智能这个难题不是一个同质化问题,它需要各种背景的天才来解决。我寻找无所畏惧的人。
Elad:你如何做到这一点?你如何通过某人的背景或思维过程来判断他是否无所畏惧?
李飞飞:这体现在他们的背景中。你与他们交谈,因为如果有人无所畏惧,你是能感觉到的。你能感受到驱动他们的动力是什么。你能从他们提出的问题中感觉到——如果他们开始问你很多关于“我不知道如何完成这个”的问题。当然你必须问这些问题,因为你想要完成它。但如果你感觉这些问题源于害怕去解决它,那就不是无所畏惧。但是,那些无所畏惧的人,他们富有创造力、有雄心。他们不害怕不确定性或未知。我真的很喜欢这一点。
以人为本的AI:构建AI与人类协作新未来
Sarah:我和Elad都致力于与无所畏惧的人,希望是技术上有创造力的人,做生意。最后一个更广泛的问题给你,因为你工作的一个重要部分也是思考如何让更多人进入AI领域,例如联合领导斯坦福以人为本人工智能研究所。如果你展望未来几年,在你上次预测的基础上,你对以人为本的AI最乐观的愿景是什么?
李飞飞:事实上,这是我职业生涯中另一个感到非常自豪的点:创立了Human Center AI Institute以及持续推动这种思维方式。我想构建一个AI与人协作并赋予人超能力的世界。我仍然相信我们的世界、人类世界需要以人为本。爱、人际关系、所有社区的普遍繁荣、正义——这些是真正重要的价值观。任何机器,无论是AI、飞机还是生物技术,都不应剥夺这些。但在牢记这些关键价值观的前提下,拥有AI来增强我们确实非常重要,因为有太多未解决的问题。
我曾在斯坦福研究过的一个应用领域是医疗保健。医疗保健从药物发现到治愈疾病、到能为全世界所有人提供的诊断、到所有人都能获得的治疗、再到整个医疗服务,如何照顾慢性病?如何应对心理健康?所有这些问题,我们不存在人类过剩的问题。我们缺乏帮助。我们缺乏科学发现、缺乏诊断能力、缺乏精准医疗、缺乏更安全有效的医疗服务提供方式和衰老帮助方法等等。这就是我所相信的。AI是帮助人类的工具。
Sarah:是的,Elad和我共同投资了一系列公司,希望它们在这方面能发挥作用,从BridgeBio到OpenEvidence到Latent。但如你所说,问题范围巨大。老实说,过去15年我对医疗保健领域技术的采用一直不太乐观。但这次感觉确实不同了。实际上这里有着巨大的净效益。
Elad:是的,我之前其实创办过一家数字健康公司。我的希望是,人们谈论了几十年的许多事情终于能够实现。而AI似乎是一个很好的实现机制。
李飞飞:完全同意。
Sarah:好的,非常感谢你,飞飞。这太棒了。这次谈话令人鼓舞,也很高兴更多地了解了World Labs。
李飞飞:谢谢,谢谢Elad。谢谢Sarah。
原视频:With Co-Director of Standord's HAI & Founder of World Labs Dr. Fei-Fei Li
https://www.youtube.com/watch?v=C6Zm5S7JHMw
编译:Doris Zhang