很多创业者把这波世界模型热潮,比作当初ChatGPT刚刚诞生的时刻。2023年的AI创业关键词是“大模型”,各大投资机构与科技大厂言必称千亿参数与Scaling Law,到了2026年,关键词正在切换成一个更模糊、更宏大,甚至带着些许哲学野心的词,那就是世界模型(World Model)。
但问题是,没有人能完整解释它。
在不同公司的叙事蓝图里,它可以是视频生成,是机器人控制,是自动驾驶的环境理解,也可以是多模态Agent的长期记忆系统。它不像一个明确的技术路线,更像一个不断扩张边界的概念。就在刚刚,英伟达官网突然公布业界首个面向机器人、自动驾驶和物理AI的全栈式综合安全系统Halos,专为运行在IGX Thor人形机器人硬件上而设计。
有趣的是,国内一批站在风口浪尖的AI创业公司,正不约而同的向这个词靠拢。
初代AI视频生成顶流生数科技,重新把视频生成模型称为“时间维度的世界模拟”。面壁智能在端侧模型中讨论如何构建更长程的结构化推理空间。在自动驾驶领域闯荡多年的Momenta,继续强化自动驾驶系统对闭环世界的理解。市值刚破万亿的智谱则在Agent能力之外,也宣布要逐步扩展“环境交互”能力的边界。
这些押注世界模型的公司分布在不同赛道,但大多有一个共同点——来自同一条学术与产业网络,清华系。这种集中在其他行业并不常见。它不像消费互联网那样依赖地理上的咖啡馆和孵化器集群,也不像半导体行业依赖供应链的物理半径,而是以清华园、五道口、知春路为圆心持续外溢。
世界模型之所以成为当下AI行业追逐的新热点,技术正在成熟只是一方面,“语言”这一建模对象正在逼近瓶颈才是根本原因。
从语音大模型出走半生的创业者们,意识到语言模型能模拟世界的描述,但并不真正理解世界的运行规则。同时视频生成模型开始出现“时间一致性”的问题,机器人模型开始面对“物理失败”的不可回避性,自动驾驶系统必须处理现实世界中持续变化的反馈。世界模型的意义,正在于试图将这些分散问题统一起来。
上一轮,清华系几乎定义了大模型。而这一轮,清华系又开始抢跑世界模型——这个被认为是通往通用智能的重要路径。
清华系三个字在AI投资圈的号召力,有时蒙上一丝玄学色彩。在清华系创业者领头人唐杰创办的智谱市值直冲万亿的当下,圈内人会开玩笑说,看项目时只要听说核心团队是清华EE(电子工程系)或CS(计算机系)出来的,哪怕还没看BP,心里已经默默把“技术天花板”那一栏调高了两格。
事实上这并不是某种玄学。如果翻看这群创业者过去十年在各自领域的轨迹,会发现他们都有点相似,总是不满足于只做一个插件,而是试图重写操作系统的底层逻辑,探向最前沿。
要理解今天的世界模型热潮,必须回到上一轮起点,大模型。
清华系创业者在上一轮中就是备受关注的焦点。智谱、面壁、月之暗面、生数科技等公司,都在不同阶段承担过追赶OpenAI的任务。如今,智谱凭借GLM系列模型的表现,更是成了国内承担“Anthropic追赶者”角色的新标杆。
从Aminer开始,唐杰团队本质上做的是一个“知识系统”。它不是模型,而是对人类学术世界的结构化表达。随后进入GLM阶段,这一系统被转化为语言模型,并在GPT-3发布之后迅速进入规模化竞争。
在智谱的决策逻辑中,有一个反复出现的关键词,就是“登顶”。在2021年的关键决策会上,团队讨论是否投入千万元级别资源追赶大模型时,内部的争议在于一个问题,就是这个方向是否值得“证明中国也可以做到世界级”。唐杰的表态很直接,如果成功,它至少能证明一件事,中国的大模型技术可以站在世界第一梯队。
在那个时间点,GPT-3已经发布一年多,谁也不知道国产模型的追赶能不能成功。唐杰在押注的同时也承受着“可能五年没有回报”的压力。而最终,这种追高的劲头也让国产模型有了自己的一席之地。
2024年智谱Open Day上,唐杰就明确表示要构建“认知驱动的世界模型”。智谱试图让模型不仅能聊天,还能自主操作手机 App、预订酒店、规划行程,模型需要对“手机界面”这个微观世界有深刻的理解,知道点开某个图标后会跳转到什么页面,支付失败后流程应该退回到哪一步。
而这种“环境交互”下的逻辑,是唐杰们探索世界模型的出发点。
如果说唐杰们代表了一种技术派的探索欲和好胜心,生数科技的CEO唐家渝与首席科学家朱军,更像是借着AI创业验证自己的理论研究。
朱军和唐家渝是生成模型领域的一对“清华师徒档”。朱军是在贝叶斯方法和生成模型学派的代表,在创建生数科技后,他们并未远离五道口,公司离清华园不过2公里。他们基于研究多年的扩散模型,得出结论,模型不应该只是输出一个结果,而应该输出一个关于结果的概率分布。
正是这种技术底色的推动,2024年生数科技自研了U-ViT架构,试图在统一的框架下处理视觉生成中的空间细节与时间连续性,让模型学习物理世界的时空规律。
Momenta创始人曹旭东更接近工程现实主义者。2016年那一波AI浪潮里,曹旭东没有选择去做离钱更近的感知模块供应商,而是要做自动驾驶大脑,处理远比“识别人脸”复杂得多的系统工程。这种和车企深度绑定的选择,也让Momenta在端到端自动驾驶积攒了快十年的真实场景数据。
而做自动驾驶,需要理解物理级交互,比如轮胎与地面的摩擦,也需要时空推演,能够预判行人和车辆和移动。更关键的是还要认知推理,理解交警手势和红绿灯。世界模型是他顺理成章的下一步。
这几个人的路径放在一起看,会发现他们都选择过“从头造轮子”。
唐杰自研了GLM系列,朱军没有用Stable Diffusion的现成框架,自研了U-ViT。Momenta的曹旭东在2016年就选择做全栈自动驾驶,而不是卖感知模块给车企,那意味着要把感知、决策、控制全部自己吃下来。他们在学术训练中习惯了面对没有现成轮子的问题,更能够接受以年为单位的长周期投入。
AI浪潮推到今天,传统商业逻辑里的短期优化不再适用,一个方向的正确性,可能需要多年才能验证。
对于这些创业者而言,当一个系统的关键环节被卡住时,最自然的选择不是绕过去,而是亲手把它做出来。博士阶段长期训练形成的习惯,让他们更倾向于追问底层问题、补齐核心能力。这几乎已经成为他们的肌肉记忆。
围绕世界模型,出身清华园的这批明星创业者,均选择从各自最擅长的系统出发去触碰不同的切面。
以智谱和面壁智能为代表,他们所追逐的世界模型,是一种长程、结构化的推理空间。
智谱在GLM体系之外,逐步将能力扩展到Agent以及交互的场域。面壁智能则更强调长上下文与推理能力,希望通过更长的“记忆窗口”,让模型具备持续建模能力。但这一路径都无法回避的问题,就是语言是否足够表达世界结构?
唐杰就不止一次表示,仅依靠大规模数据训练,模型能够学习海量数据统计相关性,却未必真正掌握知识背后的结构和因果关系。如果视频是时间切片,机器人是空间交互,那么语言模型更像是一种世界的压缩表达。在这一框架中,世界模型并不是简单地生成一个世界,而是让机器能够建立起对世界状态、因果关系以及演化规律的内部表征。
某种程度上,这也是越来越多清华系创业者转向世界模型的原因。
2024年7月WAIC上,唐杰就提出:“世界模型需要具备对物理规律和社会常识的理解,这种理解不是靠更多数据就能解决的,需要知识工程和深度学习的结合。”智谱从2025年开始频繁提及AutoGLM和Agent 战略,试图摸索出一条可行的技术路线。
而以生数科技为代表,他们眼里的世界模型,更像一个沿着时间轴铺开的超级视频生成引擎。
唐家渝和朱军团队在2024年推出国内首个对标Sora的长时长视频生成模型时,就将其定位为“时间维度的世界模拟”,他们用海量的视觉数据喂养出模型对常识物理的直觉。比如,当你抛出一个球,模型能预判它会因为重力而下坠,哪怕画面中没有出现地面,它也能脑补出抛物线。
生数科技的U-ViT 架构综合了Transformer和扩散模型,这条路线认定,一旦视频模型能够完美预测下一帧画面,它就可以变成一个高仿真的虚拟世界引擎,再反哺到具身智能和自动驾驶的研发。
Momenta更强调世界模型可以通过物理规律的重建,与实时交互来实现。
Momenta试图在数字空间中持续映射和理解真实世界,并通过数据闭环让系统不断学习和迭代,走出了一条感知、决策与自我进化相融合的路径。
曹旭东早在2016年就说过,自动驾驶的终极难题不是看见,而是理解和预判。作为早就在自动驾驶场景积攒出足量数据的玩家来说,车辆动力学、传感器仿真、路面摩擦系数、天气对能见度的影响等,这些必须有高精度的物理建模,这些模型验证通过后就可以直接“上车”进入真实世界,然后再收集真实路况数据用于模型训练。
6月23日,Momenta通过港交所聆讯,正式进入IPO冲刺阶段,有望成为物理AI第一股。
这意味着,Momenta为市场提供了一个更现实的答案,物理AI不是先有完美模型,再等待落地场景。更好的方式应该是,在量产场景中持续采集、训练、验证、上车,再回到真实世界继续进化。至少在自动驾驶领域,这个飞轮已经开始跑起来了。

需要注意的是,世界模型还在摇摇晃晃的学步阶段,离那个能装下整个物理与逻辑世界的宏大构想,还有遥远的距离。
今年,英伟达发布的NVIDIA Cosmos 3,标志着一个较大的、统一的世界模型的问世。不过相对最前沿的语言模型来说规模还小很多,展示了向通用任务(general task)扩展的能力。但在DeepMind发布Genie 2时,官方博客的措辞却非常谨慎,他们表示:“Genie 2是一个研究预览,并未公开发布。它展示的是未来可能实现的方向”。
世界模型的构想很好,但大多数人还感受不到。
这是因为,现阶段想让模型真正的去感知、理解世界,落地障碍几乎是全方位的。
首先就是物理真实性幻觉,包括生数科技Vidu、Runway、Sora在内的视频生成工具,当用户试图让AI生成一段视频,容易出现“物体穿模”。比如,让一个人喝水,杯子却穿过了手掌,或椅子突然像液体一样流动。这种模型对物理定律的违背,恰恰说明目前的视频生成模型还达不到严格的物理仿真。
除此之外,在语言模型的数据飞轮已经跑起来的当下,世界模型仍然太缺数据了。王兴兴在宇树量产机器人时发现,即便他们在仿真环境里把机器人练成了体操冠军,可一到真实世界,一块稍微反光的地砖、一个松散的鞋带,都能让机器人毫无征兆的倒地。
这种现象叫做 Sim-to-Real Gap(仿真与现实差距)。
世界模型需要无穷无尽的数据来覆盖现实世界的长尾问题,但很多物理细节,比如材质的摩擦系数、软体物体的形变、光线的散射,几乎不可能被穷举建模。人觉得理所当然的“杯子掉在地上会碎”的常识,对模型来说却需要理解材料脆性、重力加速度、地面硬度等多重属性,缺一条链条,推理就会崩溃。这是卡住所有模型厂商的难题。
“从宏观来看,现在大家所说的世界模型在技术栈上没有完全统一,还在各说各话。未来一段时间内的重要课题是,如何把所有下游任务(downstream task)的数据汇集到同一个模型架构中,并实现真正的 scale up。”Mind Lab首席科学家马骁腾博士告诉我们。
无论是产业方还是开发者,对于他们来说,世界模型目前大多还关在实验室和论文里。已经发布的模型,规模小的理解能力捉襟见肘,稍微复杂一点的物理交互就会崩溃。规模大的模型,在token成为新货币的现在,推理成本又过于高昂。世界模型距离“可堪大用”,还有实打实的距离。
有意思的是,唐杰很早就提出,仅靠语言统计相关性,很容易让模型沦为一个高水平的“鹦鹉”,能够流畅地生成答案,却未必真正理解世界。
过去十多年里,唐杰始终试图把认知图谱与神经网络结合起来,希望让机器建立类似人类的知识结构。某种程度上,这种执念甚至可以看作世界模型思路的一种早期版本。
因为现实很快证明,语言并不等于世界。即便到了AutoGLM 时代,当一个 App 更新了界面,按钮位置发生变化,Agent就会手足无措,模型也要重新学习。因为模型可以记住页面,但无法理解背后的运行规则。
当下,智谱正将世界模型视为攻克这块硬骨头的关键突破口。
这些或许正是清华系创业者的特点所在。世界模型仍在路上,这条路注定漫长。但回头看,从大模型到具身智能,再到世界模型,每一次技术跃迁的背后,似乎总能看到这群人的身影。他们未必总是最先抵达终点,却总愿意率先走进无人区。
