对话逆矩阵陈博远:22岁北大青年学者,勇闯世界模型原始创新|浪潮对话
6 小时前 / 阅读约35分钟
来源:凤凰网
2026年初,世界模型赛道竞争激烈,北大22岁学生陈博远创立逆矩阵科技,押注强化学习路线,致力于构建通用世界基座模型,挑战巨头,探索AGI新路径。

摘要:

2026年初,世界模型的赛道挤满了急于入局的玩家,但多数产品仍停留在“表层的物理世界”——AI能画出翻书的手,却不懂书为什么会掉。22岁的陈博远想做一个“物理正确”的通用世界基座模型。

这位北大元培、NeurIPS Oral与ACL最佳论文获得者,本科与师兄吉嘉铭创立逆矩阵科技(Physis),获高瓴与燕缘联合投资。当行业争论视频生成、3D重建与世界动作模型哪条路线更优时,陈博远用强化学习押注另一条路:让机器通过主动干预在隐空间理解因果,而不仅是被动观察像素。

逆矩阵内部不设KPI,没有部门墙。这支几乎全部由“95后”“00后”组成的团队计划年底发布旗舰模型。在行业巨头与具身智能公司环伺的赛道里,他们试图证明:通用世界基座模型的原始创新,可以由中国团队做出来。

凤凰网科技《浪潮》出品

作者|董雨晴

2026年初,世界模型的竞赛已从学术讨论变成产业基础设施之战。李飞飞在硅谷推动3D重建路线,LeCun(图灵奖得主杨立昆)押注隐空间表征学习,而国内战场同样硝烟弥漫:字节跳动、阿里巴巴、腾讯先后组建世界模型团队,试图在物理AI的底座上抢占先机。这不是普通技术上的创新,而是继大语言模型后的下一个万亿级入口——从具身智能、严肃工业场景到可控核聚变仿真、商业航天训练,任何需要AI理解物理规律的严肃场景,都依赖这层底座。

资本与产业界迅速达成共识:AI正从虚拟世界迈向物理世界,“教会机器理解重力、因果与状态转移”将成为通往AGI的下一块关键拼图。据业内估算,仅工业机器人训练市场,世界模型的潜在规模就达数千亿元;若算上具身智能、影视游戏引擎、科学计算与消费级内容生成,整体天花板远超当前大模型应用层。

然而,当巨头们纷纷宣布布局、创业公司争相贴上标签时,真正的技术路线之争才刚刚开始。视频生成追求视觉连贯,3D重建追求空间逼真,强化学习追求通用泛化推理,每条路径指向完全不同的技术天花板与商业边界——有人做影视工具,有人做机器人大脑,有人做工业仿真。算力结构、数据与评估体系截然不同,每一个选择都意味着截然不同的终局,没有中间地带。

而在这场尚处早期的竞赛中,一支几乎全部由“95后”“00后”组成的团队正从无人区杀出。2026年初,北京大学元培学院大四学生陈博远与同出北大的师兄吉嘉铭联合创立逆矩阵(Physis)。公司成立之初即获得超千万美元融资,由高瓴创投和北大系基金燕缘创投联合投资。近期凤凰网科技获悉,他们又将完成新一轮融资。

图|左,陈博远;右,吉嘉铭

22岁的陈博远,身上贴着“NeurIPS亮点论文一作”“ACL最佳论文”“北大年度人物”“北大最高荣誉五四奖章”等标签,是外界眼中标准的顶尖青年学者。这个月,凤凰网科技《浪潮》和陈博远进行了两次深度的交流。

我们发现,在这场全新的AGI(通用人工智能)战役中,陈博远坚信“自己为人工智能而生”。也是这一轮AI竞赛中,最有可能成为基础研究和原始创新的代表。

谈及AGI的竞赛,他更关注第一性原理、无人区探索和Neolabs式组织——这是一个与主流商业叙事迥异的创业样本:不设KPI、不划部门、不急于商业化,甚至不急于证明自己“正确”。

通过这场深度对话,我们试图厘清几个核心问题:一支青年军凭什么闯入算力密集型的世界模型战场?在行业巨头与具身智能公司环伺的赛道,一家“做基座”的初创公司如何建立护城河?以及,当中国AI新生代崛起时,这种以技术信仰驱动的组织形式,究竟能走多远?

以下是对话实录,在不改变原意的情况下经编辑发布。

“世界模型是无人区,需要从0到1的探索”

凤凰网科技:为什么要投身到世界模型这个领域?

陈博远:投身世界模型,是因为当前AI的能力边界已经触顶。大语言模型把"预测下一个token(词元)"做到了极致,但token(词元)是符号的、压缩的,物理世界是状态的、连续、充满复杂约束的。当大家还在讨论世界模型的视频生成哪家效果更好时,我个人认为,真正的瓶颈是:AI从未真正"生活"在物理世界里。

世界模型的本质不是生成更逼真的画面,而是建立对物理因果的信念。无论是工业仿真、具身智能还是严肃场景、科学计算,底层需求都是同一个:让AI理解"我做了什么,世界怎么变"。这是基础设施。没有世界模型,AI就走不出数字世界,真正来到物理世界。

我们选择强化学习路线,是因为人类理解世界不是靠旁观,而是靠干预。你推一下球,球滚了,撞上积木,倒了——这个state-action-next state(当前动作-动作-下一状态)的转移,才是物理规律的本质。这条路还没有标准答案,架构、数据、评估体系都是undefined(未定义的),我们在做一个从0-1的事情,但正是这种无人区的状态,让我觉得值得投入。

凤凰网科技:你们做世界模型的目标是什么?

陈博远:我们公司坚信第一性原理——简单,但能scale up(规模扩展)。因此,我们想要做通用世界基座模型——一个真正懂物理规律、物理正确的通用世界基础模型,而不急着去做世界模型for 具身智能、for工业场景、for 游戏,因为真实物理世界里的规律是共通的,可以互相学习和泛化。做基座模型本身会给我们带来更多洞察,到达更远的远方。它可能一开始有波折和探索,但一定会迎来一个技术奇点,之后模型能力和技术发展会井喷式爆发。

凤凰网科技:什么叫做通用世界基座模型?

陈博远:通用世界基座模型,就是物理世界的操作系统。就像大语言模型先学会语言规律,再去解决法律、编程这些具体问题一样,世界基座模型要先理解重力、碰撞、因果这些底层物理规律,再自然地迁移到具身智能、严肃工业仿真、科学计算、游戏物理引擎等不同场景。

现在行业里很多模型是为单一场景训练的,见过汽车但是却不懂机械臂。但我们相信真实世界的规律是共通的,推一个球和开一辆车,底层都是力与运动的关系。通用基座模型要先把这些本质规律学透,而不是在像素层面拟合特定场景。

这个底座本身足够简单,但能scale up(规模扩展)。一旦底层规律开始涌现,它就能零样本泛化到没见过的物理环境,不需要为每个新场景重新训练。先做透底座,上面的应用生态自然会开花。

凤凰网科技:但大语言模型的架构积淀很长,世界模型还是很空白的。

陈博远:这正是我们在探索的。

大语言模型出来之前有BERT、T5和各种设计,如何选对架构并能scale up(规模扩展)是关键。世界模型现在有各种技术路线——李飞飞的3D建模、LeCun在隐空间表征里的探索、还有基于视频生成模型等。但我们认为,世界模型未来一定需要架构的变迁。对时序的建模、记忆机制、对世界的建构和理解、对状态转移的映射,是现有架构很难解决的。无论扩散模型架构还是其他方式,肯定需要底层的革新和创新。

凤凰网科技:成立逆矩阵之前,你主要在做什么?

陈博远:我是高考到元培,大一到大四主线一直围绕着科研展开。我在大一学了很多计算机视觉、自然语言处理的东西,然后接触到强化学习这个方向。我一直有个目标,想实现真正超过人类智力水平的AGI,并且要能够实际落地到技术产业变革里面。所以我选择了强化学习方向,因为它更贴近人类学习的方式,更能够理解世界。

大一我就进组了,当时周围大部分同学都在卷绩点,但我还是想在元培学院自由探索的氛围下自己想做的事情。当时认识了本科导师杨耀东老师,进入了课题组,遇到了现在逆矩阵的联创,当时是我的师兄。比较幸运,大一就发了自己的第一篇文章,中了NeurIPS 2023。

我在大二、大三、大四的研究都围绕着强化学习和强化学习在大模型上的应用展开,包括预训练及后训练、RLVR等方向。期间拿到了NeurIPS的oral(口头报告),有一篇自己的亮点论文,还有ACL2025的最佳论文。那届ACL全球就四篇最佳论文,我们是唯二的中国团队,另一篇是DeepSeek梁文锋的。我整个本科科研历程走得还蛮全的,有点像读了一个博士。

(注:NeurIPS是全球机器学习领域最顶尖的国际会议之一,与ICML、ICLR并称为AI三大顶会,投稿录用率常年低于25%,能中稿代表研究达到了国际前沿水平。陈博远在大一就中稿NeurIPS 2023,这在本科生中极为罕见。而NeurIPS的oral口头报告是从数万篇投稿中遴选出不足0.5%的顶尖论文,需要在主会场向全体参会者做正式报告,代表该研究被国际AI社区认定为具有突破性或重大影响力。)

凤凰网科技:做这么多事情会不会很忙,怎么分配时间?科研和学业怎么平衡?

陈博远:我会更看重用科研来解决实际问题。我选择北大、选择元培,是更加心仪这里自由探索的氛围。从大一开始我就给自己立了个目标,要去寻找更多的可能性。人工智能是我高二就了解的方向,在2021年北大线上讲座上我萌生了对AGI的梦想。我觉得真正想做人工智能的同学,大家会自己去设计课表,主动点自己的技能树,这就是passion-motivated(热爱驱动)。

凤凰网科技:强化学习跟你现在做的事有什么关系?

陈博远:2023年大模型刚兴起时,我们发现大模型虽然能像人一样说话,但解决不了1+1=2这种简单问题。为什么?因为世界的规律是分层次的。学说话容易,但不是所有人都能像牛顿那样总结出重力定律。学习更深层的规律,需要强化学习。

通过明确的奖励信号,让它不断自我博弈,涌现出预训练阶段的知识。

很多人认识我是因为 AI alignment 相关的研究——但我做的不是大家第一反应的"价值对齐"。其实alignment(对齐)分两部分:一是oversight(监管),给赛车装刹车;第二点也是更关键的是supervision(监督),提供奖励信号、设计算法与架构,让人工智能完成我们自己完成不了的任务,甚至超越我们,即可扩展监督。这其实就是我整个本科研究的脉络。

2023年年初我们做强化学习for大模型,完全是从0到1的无人区探索。那时候大家都完全没办法想象一个纯学校的团队,能拿到顶会的最佳论文。原来认知里这种最高王冠上的明珠应该是业内巨头拿的,需要很强的资源支持。但我们从山底走到了山顶,没有标准答案,全都是未被限定的东西,怎么在这个领域做出真正突破?这非常考验技术直觉、团队配合和创新能力。

这也是为什么我坚定选择出来创业。无论科研还是创业,对我来说有两个核心关键点:第一是使命,我们做什么;第二是团队。从使命上说,我们希望让通用基座模型去学习世界的规律、让底层规律涌现。从团队来说,我们也经历过从0到1探索科研无人区的过程,二者是共通的,现在世界模型的路径也没有收敛,需要探索和确定。

凤凰网科技:目前逆矩阵的团队构成是什么样的?

陈博远:几位联创,都是之前彼此非常信任的伙伴。团队现在20到30人,一半是奥赛金牌、省市状元,有丰富的学术和科研经历。AI这波浪潮越年轻、越聪明的人,越能涌现出让人惊叹的想法。还有一半是来自大厂的工程人才,负责把工程做扎实。Infra(基础设施)越来越重要,在构建基模的过程中,工程上可实现、高优化、硬件亲和是更加重要的。像Claude Code 意外“开源”后,大家发现里面的Infra(基础设施)和Harness Engineering(训练架构工程)有很多设计。

我们内部既有仰望星空做探索的人,也有脚踏实地做工程落地的人。外界评价我们是“中国的Neo Labs”——一帮最年轻、最有热情、最有闯劲的人,做出突破性成果。

我常把我们比作一艘快艇,虽然小,不像远洋货轮体量大,但船上每个人都是舵手,每个人都能决定前行方向,进步非常快。我们内部的组织形式叫“no walls”(打破部门墙)——没有KPI,没有部门划分,甚至没有明确分工,只有分工偏好。真正有技术品位的天才和工程师聚在一起,部门和KPI反而会施加过多负担。很多创新就是两三个人做出来的核心突破,然后大规模scale up(规模扩展)。

OpenAI刚开始也只是一个小实验室,2021年的时候在Stanford(斯坦福大学)、Berkeley(加州大学伯克利分校)讲scaling law(规模定律)的故事,但2022年之前没人相信。就是有这么一批坚持的人做出来了GPT系列、ChatGPT。世界模型也在等待自己的“GPT时刻”,需要一批志同道合、热情驱动的人去做突破。

凤凰网科技:你觉得你们能成为“北大之光”吗?这轮大模型跑出来的Kimi、智谱都是清华系的,你作为北大人怎么看?

陈博远:我们当然希望能成为北大之光,为北大在AI时代的突破和创新添砖加瓦,但这个标榜太大了。我们更多是希望在这个时代发出北大青年和北大AI创业者的声音。世界模型是全球竞争的关键阵地,美国有李飞飞,欧洲有LeCun,我们希望作为北大校友企业,能在世界模型这个前沿方向上做出中国自己的原始创新。

我们三个联创都是北大出来的,去年我和嘉铭都拿了北大年度人物。学校层面非常支持我们。北大的很多人才在大厂当技术负责人——罗福莉、林俊旸,还有超算队的学长们在DeepSeek、Kimi担任重要职务。我们现在希望自己能有一个公司出来,凝聚北大、清华乃至全国的人才,去以中国原创技术参与全球人工智能前沿竞争。

凤凰网科技:我了解到,近期智源研究院也官宣你担任行为世界模型中心主任,这是出于一种什么的考虑?

陈博远:我们团队和智源研究院颇有缘分,在技术路线上也高度同频。

智源的核心定位是实现人工智能领域从0到1的原始创新与前沿基础研究。智源从2022年布局多模态,到2024年发布Emu3(Emu,多模态世界模型)登上《Nature》(《自然》杂志)正刊,再到2025年推出Emu3.5实现从"预测下一个token(词元)"到"预测下一个state(状态)"的跃迁——这是国内最系统、最深入的模型技术沉淀。这些积累不是短期能追上的,它们代表了智源在架构、数据和infra(基础设施)上的长期投入,也是对于构建世界基座模型关键的积累和洞察。

更关键的是人。智源学者计划里有40位38岁以下的青年科学家,青源会汇聚了2000多位海内外青年学者。智谱AI(智谱人工智能)、月之暗面、面壁智能、银河通用这些公司的核心创始人,都曾在智源做过研究。这种生态意味着,你能随时找到最懂基座模型的人讨论,能在迷雾中快速验证判断。

逆矩阵聚焦通用世界基座模型的底层探索。智源行为世界模型创新中心是智源研究院专门设立,用于支持下一代通用物理世界基座模型的研发与创新,承担更大规模、更系统的前沿攻坚。我在这两个角色里推动的是同一件事——让AI真正理解物理规律。技术愿景是统一的,凝聚共同的力量去逼近同一个目标。

“世界模型GPT-3时刻不是刷榜,是发现能scale up”

凤凰网科技:世界模型的市场你怎么看?

陈博远:我们把世界模型分为W0到W5,类比自动驾驶的L0到L5。L0到L2是辅助驾驶,L3以上才进入真正的高级别自动驾驶。每个层级的市场越来越大。

现在大部分世界模型还处于W0、W1层次。视频生成模型能生成连贯好看的视频,但会出现穿模、不符合物理规律——比如你双手捧着书本,翻书时凭空出现第三只手。这解锁的是影视、游戏引擎等对物理要求不高的市场。

但具身智能、严肃工业场景仿真、可控核聚变、商业航天、医疗等场景,都需要物理正确的世界模型。物理AI对应的市场,比现在说的影视或具身智能大很多倍。现在工业里机器人还要用围栏围起来,因为它无法做反事实推理,预判不了安全后果。本质上是不理解物理规律。

而在市场前景方面,仅工业机器人训练市场,世界模型的潜在规模就达数千亿元;若算上具身智能、影视游戏引擎、科学计算与消费级内容生成,整体天花板远超当前大模型应用层。问题的关键在于,世界模型不是"更好的生成",而是物理世界的基础设施与操作系统。

凤凰网科技:目前来看,你觉得真正做世界模型的对手多吗,你怎么评价他们的路线?

陈博远:很多人都在做世界模型,但视角不同。李飞飞主张3D重建,希望通过3D高斯泼溅等方法从0到1模拟世界。但建构世界不代表理解世界——我知道杯盖要在杯子上,但不一定理解杯子洒了水会倒出来。

LeCun(杨立昆)主张在隐空间通过自监督学习,自然涌现对世界的表征和物理规律的理解。还有其他做多模态大模型、视频生成模型的技术路线。

我自己是强化学习背景出身。世界模型最早可追溯到1943年认知科学,在AI的发展长河中,强化学习之父、2024年度图灵奖得主Rich Sutton 首先在1991年提出Dyna架构,将强化学习与规划型世界模型结合,让智能体在真实环境学习的同时,利用模型生成“想象经验”提升效率,确立了Action作为世界模型必需输入的核心范式,支持依托行动推演环境状态、实现反事实推理。

2018年David Ha和Schmidhuber 进一步规范世界模型架构,后续图灵奖得主LeCun杨立昆进一步发展世界模型的架构,都与以Action为核心的强化学习密不可分。回到第一性原理:物理AI需要的世界模型,是一个学会“世界怎么动”的模型。人类和世界交互分三步:理解世界(这是水、这是咖啡),建模到脑子里(隐空间的信念),根据信念做决策(拿起咖啡),并在决策中更新理解。人类一直在学习的,是基于当前状态采取什么动作、导致什么下一个状态——这其实是强化学习里的transition model(状态转移模型)。

从宏观技术概念来说,智能的发展是在尽量最小化对于世界的不确定性。最小化有两种方式:一是被动观察,就是data scaling(数据规模化);二是主动干预。举个例子:我看了很多咖啡杯落在桌上的视频,可能学到桌子有“吸力”。但物理世界的因果性只有一种。什么让我从相关性变到因果性?是我主动施加干预——把咖啡杯推到桌子边缘,发现它往下掉。这样在我的假设空间里,就能排除“桌子有吸力”的假设,学到真正的因果。

这在世界模型预训练上尤为重要。真实视频是低压缩、高带宽的。物理规律发生在物体之间,不是像素之间。但训练过程中我们用了大量带宽理解视频动态和像素,这是消耗资源且欠优的。

凤凰网科技:能不能再说的更具体点?

陈博远:在大语言模型里,语言为什么能泛化?next token prediction(下一个词元预测)这个范式非常反直觉,但符合第一性原理——简单。信息论上,one token predictor(单个词元预测)等于compressor(压缩器)。语言是高压缩的,包含了人类长久进化中的智慧。

但视频不同。首先用了大量像素占据画面;其次很多信息不在里面——咖啡杯里可能有咖啡,但如果杯子不透明就看不到;重力加速度、风力影响,视频模态里很难包含。视频还是2D的,怎么扩展到3D空间?这些都需要突破。

凤凰网科技:你们算过账吗?要做这个事要花多少钱、吸纳什么样的人?

陈博远:我面试时不太聊具体技术细节。每个人都有自己的技术积淀和技术直觉。更多是对齐顶层愿景——招的是志同道合、有技术追求的人。

至于花多少钱,算力肯定是关键。目前资金主要用在算力和招人上。但我们不是那种为了融钱而融钱的公司。我们融资节奏是围绕技术来的——我们内部看到的是构建基座模型所需要的更大规模算力、更多数据、更大尺寸模型的需求。技术是第一驱动力。

凤凰网科技:目前团队人员占比最多的是什么样的人才?

陈博远:五五开。一半是年轻的科研青年,一半是大厂工程人才。我们非常重视前沿技术研发,这一定是摸高、是未来。同时非常重视Infra(基础设施)。

目前在我们看来,每一项任务都重要。算法建立在好的基建和数据上。Infra的架构设计、训练组织、底层创新,在AI时代越来越重要。OpenAI最近也在说Harness Engineering。

凤凰网科技:看起来你们的入场时间会有点晚?市场能给你们多少时间?

陈博远:OpenAI一开始也不是Transformer的发明者,但确是把这个架构发扬光大的机构。我们不会慢。

大家现在都说自己达到“GPT-3时刻”,我觉得所谓“GPT-3时刻”不是在榜单上刷高分,而是你真正发现通过扩大算力、数据、规模,能获得明确的表现提升——我们内部是能观察到这种迹象的。

我们是一家AI native(人工智能原生)的公司,没有路径依赖。我始终认为,在现在的时代背景下,只要实现真正的技术突破,商业化只是过程中“低垂的果实”,可以在迭代中“沿途下蛋”。我们现在还是想核心做好通用世界基座模型这一件事。

就像我们的中文名逆矩阵,英文名Physis,physis是physics的希腊词根,其首字母φ代表黄金比例。我们认为世界存在一个“逆矩阵”的黄金分割。我们计划今年年底发布一个旗舰模型,中途会有一些开源切片,给社区带来不一样的视角。

“条条大路通罗马,但有些路有天花板”

凤凰网科技:现阶段有哪些可以分享的成果?

陈博远:我们是希望回归第一性原理,通过一个通用的世界基座模型,One for All 解决不同的下游真实物理场景需求,这需要架构、数据、算法的多重创新。架构上,压缩过程需要转变。硅谷应用DINO架构比较多。我们在探索如何压缩数据——数据建模过程中,要先嵌入到一个向量空间。不同编码方式会损失不同信息,比如传统VAE是从重建的角度来压缩,会丢失很多信息,其实是不太符合信息论上最优编码的原理的。

数据也是关键。每家公司都说自己的数据金字塔,关键是有没有系统可扩展的数据pipeline(流水线),以及独特的经验和洞察。

我们内部发现,具身智能现在开始做ego-centric(第一人称视角数据)。以前大家关注第三人称全景建模,但对世界模型来说,第一人称更重要——它天然代表了主体和世界如何交互、产生什么后果,带着state(状态)、action(动作)和next state(下一状态)的转移。

游戏引擎、虚幻引擎里的数据也非常重要。人类学物理也不是直接学微积分,是从1+1=2开始,到平面直角坐标系,再到微积分。我们发现学物理也有“课程学习”的概念——正确率在0.3到0.8区间的题目,从易到难,效果最好。物理引擎代表人类熟悉的简单规则,是学习更复杂真实物理世界的基石。

凤凰网科技:你们是共创氛围,还是有核心作者把握整体方向?

陈博远:更偏向共创。我们内部没有部门墙,也没有KPI,甚至没有分工。但不是说大家干一样的事,而是主观上每个人都有主人公意识,从“完成一件事”到“做好这件事”,而且站在上一层思考。

比如数据团队的人会想:如果我要做最好的世界模型,该怎么协调数据、评估、算法?然后再思考自己这部分怎么探索。

我们这里不论资排辈。真正有技术创新的是两三个人做出核心突破,然后倾注资源scale up(规模扩展)。过往很多探索就是两三个人——可能一个状元加一个金牌——做出来的。这有点像DeepMind的创始人Demis Hassabis曾经说要做诺贝尔奖最多的公司,内部就是两三个人一个方向,谁做出来就倾注资源。

凤凰网科技:你们这个风格是行业普遍共识吗?DeepSeek也是这个路线,Kimi也在往这个方向走。

陈博远:我们跟DeepSeek、Kimi的同事都聊过。我个人欣赏这种纯实验室的形式,因为这种研究形式最容易做出创新。我们瞄准长期主义,组织形式是为创新而生的,不是为高效管理。罗马军队的组织架构思维能高效管理,但未必能激发创新。

凤凰网科技:创业以来,最大的困难是什么?

陈博远:在研发方面,技术的碰壁对我们来说很正常,今天有挑战,明天可能就解决了。碰壁和创新在无人区探索里是必然的。

打个比喻,我自己很喜欢骑车,我们大家会一起骑香山、西山。技术攀登过程中,团队里有人出来“破风”——骑行队伍里破风者给后面的人引导。每个时期有不同的破风者,这样整个车队才能更快到达山顶。

对我来说,更大的挑战是组织形式。我们凝聚了一帮最聪明的大脑,每个人有自己的技术偏好和直觉,怎么把大家组织起来、让创新氛围凝聚?随着团队规模扩大,这需要思考。

我们给每个人配了Coding Agent(代码智能体),每个新人入职第一件事情是我们手把手地教会他我们用来提效的AI工具,核心洞察和创新需要人想,但基础工程实现,AI 智能体能帮大忙。现在每个实习生每月有2000美元的Coding额度,正式员工更自由。我们衡量过,一个人操纵4个agent,能顶原来10个工程师的工作量。

虽然AI能帮助完成80%的工作,但剩下20%的人力非常关键——对代码风格、工程组织、Infra(基础设施)设计、Harness 等(训练架构工程),需要人类介入进行评判和把关。

凤凰网科技:大厂也在往这个方向走,比如腾讯也想打破部门墙来涌现创新。

陈博远:远洋货轮体量大,很难轻易转向。初创公司像快艇,每个人都是掌舵人,能更快跑出来。技术路线不可能一条路走到黑,需要在迷雾中前行,有曲折、有折返。大厂擅长把创新从1做到10、从10做到100,但从0到1的探索,可能更需要初创形式和自由氛围。

凤凰网科技:你觉得李飞飞、LeCun跟你们是路线分歧还是正确性分歧?

陈博远:大家对最终目标的理解也不同。李飞飞从计算机视觉角度思考世界模型,从0建构一个逼真世界。LeCun想在隐空间层面做到最好。

但JEPA系列一直遇到表征坍缩——loss(损失值)降到最低不代表学到最好。比如所有物体都可以用“桌子有吸力”解释,loss能降到最低,但换个情况就不成立了。

强化学习里有个经典案例:机械手拿水杯,用RGB相机观察。训练结果loss很低、奖励很高,但策略是什么?机械手不断在相机前移动,把相机遮挡住——符合奖励信号,但没完成任务。

我们坚信隐空间代表未来方向,比像素空间更好优化,更代表世界理解的本质。但在隐空间里怎么探索、怎么引入动作的因果,是我们更需要的路线。

大家看到不同的远方。我们认为未来世界模型或AGI的远方,是能自主理解、学习和发现物理规律。就像现在大家尝试用大语言模型解决物理和科学问题,未来物理AI也可以在我们的世界甚至地球之外里不断探索和在线学习,发现新的物理规律。

条条大路通罗马,有些路有天花板上限,有些能走向最终远方。不同路径之间会有互相借鉴。

“护城河是人,是knowhow,是快速迁移的能力”

凤凰网科技:如果你没创业,最想去哪家创业公司或大厂?

陈博远:我一定会选择创业。跟我的成长经历有关。小时候家里比较散养,我对数学感兴趣,小学学完初中知识,初中学完高中知识,不是为了应试,就是觉得探索数学规律有意思。

高二在线上的北大讲座上,了解到人工智能。当时在沙发上听课,开着空调吃西瓜,我至今记得那个感觉,就是觉得我就是为人工智能这个学科而生的,我天生就是学这个的人。

高三课桌上有个纸条,写着“北京大学元培学院 人工智能”。这三个词激励我来到元培。

创业的想法一直在脑子里萌生。做科研的过程中,想法越来越清晰。我发现真正有价值的技术,大家会以开源形式发出来,学术论文会越来越少。我自己算过一个数:从第一次工业革命到现在,技术革新的间隔在不断压缩——从将近一百年,到几十年,到现在可能只有十年。2025到2035年是AI原始创新的关键窗口,窗口会慢慢闭合。

既然当下有想做的事、有技术理想、有这样的团队,为什么不出来创业?

凤凰网科技:外界都在讲再造一个类似大语言模型的产业周期,造一个千亿市值公司。在你们看来不是这样?

陈博远:如果我们真的做出物理正确的世界基座模型,应用到具身智能、严肃工业场景仿真,这确实是万亿级市场。但真正做技术研发的公司,不应该第一序列由商业驱动,应该由技术创新驱动。基模做好了,上面的生态自然会开花。

凤凰网科技:你们做世界模型核心护城河到底是什么?

陈博远:很多人问,具身公司也在做自己的世界模型,会不会用更多数据超越你们?

数据金字塔也好、架构也好,每家都有自己的pipeline(数据流水线)和design(设计),这不是核心壁垒。真正的壁垒是人,是能不能有关键的knowhow(经验)和insights(洞察)突破。还是那个例子,Transformer一开始不是OpenAI发明的,OpenAI o1的复现也不是大厂先做出来的,是DeepSeek。

如果过早聚焦于真机本身,可能导致过拟合。真机数据有用,但只有这些远远不够。我们做的是第一性原理的事,一开始可能慢,但上限更高。就像Cursor早期占据很多市场,但Claude Code出来后,大家看到了更强大的基座模型带来的生产力变革。所以我相信在这样一个高人才密度、扁平组织形式的地方,大家都是志同道合、自我驱动,原始创新的活力和火花是随时迸发的。

凤凰网科技:如果有一天你们的路线完全被替代了怎么办?

陈博远:如果从架构来说,我们肯定是做出新架构的第一梯队。架构的核心创新在于人,在于我们对这件事的理解和目标。有人想做长视频编辑模型,架构就为那个服务。我们目标是物理正确的通用世界基座模型,架构为这个服务,不会偏离。

从历史看,真正做出突破的AI公司,有些靠架构,有些不是。就像Google发明了新架构但早期没跟上。架构是壁垒,但更重要的是架构之上、数据之上、算法之上,你独特的经验和洞察,以及团队有没有快速迁移的能力。

护城河的核心是我们有这样一批人、这样一个团队、这样快速的技术研判和快速迁移能力。最根本的是,我们是一个坚持长期主义和第一性原理的团队。

凤凰网科技:你们是用这种方式说服投资人的吗?高瓴怎么看?

陈博远:我觉得其实不能说“说服”,是投资人重视的长期主义和我们的信念发生了共鸣,所以第一轮投我们。

凤凰网科技:你怎么劝那些天才加入你们?用组织文化和第一性原理说服他们?

陈博远:不是说服,应该是互相吸引。我不会说“拉你进公司”,而是像朋友一样聊顶层愿景——你想在什么样的氛围里做成什么样的事?

越来越多人跟我说不太想去大厂了。去大厂是确定性输入输出,服务于产品线也许很好,但他们像黑马,不想被限制在固定赛道和围栏里。我们内部崇尚自由创新探索的氛围。一帮最崇尚自由的人聚在一起,才能做出更好的事。

凤凰网科技:但大厂也意识到了,拿出更多钱和更自由的氛围抢人,这对你们来说也是压力。

陈博远:钱是一方面。我们作为初创公司也提供很好的薪酬待遇,可能没大厂多。但真正加入我们的人,都不太在意这个。核心驱动力是技术追求,更纯粹。

“最好的时代”

凤凰网科技:你觉得你们这些中国AI新生代赶上了一个好时代吗?

陈博远:我觉得对于现在搞科研的人来说,是最好的时代。

最好的时代是因为大家开始对中国AI新生代有信心。我是04年的,今年22岁,团队里还有比我小的。大家开始相信后浪能做出更本质的创新。

我们没有生在AI发展的第一批,没赶上深度学习刚出来的时候。但种一棵树最好的时间是十年前,其次是现在。这也是为什么我们坚定选择创业,想在这个浪潮里有自己的一朵浪花。

而且我们也是本土团队,嘉铭拿了苹果学者(内地仅两位),我们选择留下来。外界叫我们“中国的Neo Labs”,希望我们能做出突破性成果。

凤凰网科技:你跟家里人说本科毕业就创业、不读研读博,需要解释吗?

陈博远:肯定有要解释的地方。有人问我未来会不会读博。我觉得当下重点是做好技术创新本身,之后是否读博,一定是为技术创新服务。我爸妈比较支持我。

凤凰网科技:硅谷从去年开始人才浮躁,扎克伯格开天价,传到国内字节也在这么干。你们不受影响吗?

陈博远:DeepSeek、Google之前也联系过我,能拿到不错的offer。我们几位联创和公司的人都能在大厂拿到非常好的offer。但大家核心还是想在国内去做最原始的创新。做技术的人都有意识无意识地感受到,底层创新要出现在自由探索的氛围里。

凤凰网科技:你没动摇过?没想过去DeepSeek?

陈博远:DeepSeek固然挺好,但我想的是,为什么我们不自己组建这样一个组织做底层创新?每个lab、每个公司的技术愿景不一样,看到的东西不一样。去DeepSeek、Kimi能获得很好成长,见识厉害的人。但我们同样能凝聚这样一批人,做自己更伟大的事业。在通往AGI的道路上,需要这么一批有闯劲的人冲出来。

凤凰网科技:你们几个联创是怎么分工的?你在团队里算什么角色?

陈博远:我更多负责研发,可以叫研发负责人。我会以更全面的视角看整个技术愿景,协调各个团队。我自己也重度参与研发本身,关注算法和Infra。

嘉铭作为CEO把握大的方向。我们CTO更关注工程实现和落地,以及大规模Infra工程。我们内部所有的技术人员都坐在一起,有时候大家会有激烈的讨论甚至争吵,有冲突,但这是正常的——技术就是在摩擦中迸发火花,大家的争论也是基于技术出发,希望寻找更加具有扩展性的技术路线。每次争论后往往会产生新的想法、新的突破。最终实践出真知,小规模实验验证可规模化的前景后,才真正押宝、上规模。

这个核心研发方向不是一个人决定的,由一个人决定会受到路径依赖和个人技术直觉的局限。合力的方向是我们共同决定的,只是有人定大体范围,具体哪条路径最合适,大家头脑风暴。我虽然是04年的,但团队里还有比我更年轻的,他们提出的想法可能代表未来方向,我们可以不断纠偏和调整。

凤凰网科技:如果仅从我们今天的对话来看,我很难想象你是04年的,外界会不会质疑你们学生创业?

陈博远:术业有专攻。有人会说你们是纯学生团队,会不会没有产业化、工程化背景。但我们团队里不仅有最有闯劲的年轻人,也有从大厂出来的工程化人才。之后做产业化、商业化,也会吸纳更多有洞察的人。元培本身就是跨学科的,我做过的很多工作,是从社会心理学、生物学获得启发,用到AI研究上。做公司也是跨学科——有人懂产业化,有人懂商业化,有人懂Infra,有人懂算法,术业有专攻。这种碰撞更容易迸发创新火花。

凤凰网科技:你觉得自己是那1%的人吗?

陈博远:我不会标榜自己是天才或学霸。从高考上元培,到做学术创新,外界可能给我挂“天才少年”的帽子,但我并不是很喜欢这个称呼,我更希望成为一个能更聚焦于技术本身,给这个世界带来更美好的未来的人——技术驱动、热情驱动,想做有价值、有意义的事。

团队里有很多比我强的。一个好的团队,首先每个人要有自己的技术直觉,不然怎么保证前进方向正确?原始创新是个很难的事情,对我们来说,不仅需要天才,更需要热情驱动和自我驱动的人。在这艘快艇上,每个人都能找到自己的位置,一起掌舵。船长不是最关键的那个,每个系统、每个环节上的人都是最关键的。技术是平权的,每个人都有创新的权利。价值的认可需要时间,但探索本身就有意义。