清华系“盯上”世界模型 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

清华系“盯上”世界模型

6 小时前 / 阅读约13分钟

来源：36kr

世界模型成AI新热点，清华系创业者积极布局。智谱、生数科技、Momenta等从不同路径探索，虽面临物理真实性幻觉、数据缺乏等挑战，但清华系创业者仍愿率先走进无人区。

很多创业者把这波世界模型热潮，比作当初ChatGPT刚刚诞生的时刻。2023年的AI创业关键词是“大模型”，各大投资机构与科技大厂言必称千亿参数与Scaling Law，到了2026年，关键词正在切换成一个更模糊、更宏大，甚至带着些许哲学野心的词，那就是世界模型（World Model）。

但问题是，没有人能完整解释它。

在不同公司的叙事蓝图里，它可以是视频生成，是机器人控制，是自动驾驶的环境理解，也可以是多模态Agent的长期记忆系统。它不像一个明确的技术路线，更像一个不断扩张边界的概念。就在刚刚，英伟达官网突然公布业界首个面向机器人、自动驾驶和物理AI的全栈式综合安全系统Halos，专为运行在IGX Thor人形机器人硬件上而设计。

有趣的是，国内一批站在风口浪尖的AI创业公司，正不约而同的向这个词靠拢。

初代AI视频生成顶流生数科技，重新把视频生成模型称为“时间维度的世界模拟”。面壁智能在端侧模型中讨论如何构建更长程的结构化推理空间。在自动驾驶领域闯荡多年的Momenta，继续强化自动驾驶系统对闭环世界的理解。市值刚破万亿的智谱则在Agent能力之外，也宣布要逐步扩展“环境交互”能力的边界。

这些押注世界模型的公司分布在不同赛道，但大多有一个共同点——来自同一条学术与产业网络，清华系。这种集中在其他行业并不常见。它不像消费互联网那样依赖地理上的咖啡馆和孵化器集群，也不像半导体行业依赖供应链的物理半径，而是以清华园、五道口、知春路为圆心持续外溢。

世界模型之所以成为当下AI行业追逐的新热点，技术正在成熟只是一方面，“语言”这一建模对象正在逼近瓶颈才是根本原因。

从语音大模型出走半生的创业者们，意识到语言模型能模拟世界的描述，但并不真正理解世界的运行规则。同时视频生成模型开始出现“时间一致性”的问题，机器人模型开始面对“物理失败”的不可回避性，自动驾驶系统必须处理现实世界中持续变化的反馈。世界模型的意义，正在于试图将这些分散问题统一起来。

上一轮，清华系几乎定义了大模型。而这一轮，清华系又开始抢跑世界模型——这个被认为是通往通用智能的重要路径。

01 为什么是清华系？

清华系三个字在AI投资圈的号召力，有时蒙上一丝玄学色彩。在清华系创业者领头人唐杰创办的智谱市值直冲万亿的当下，圈内人会开玩笑说，看项目时只要听说核心团队是清华EE（电子工程系）或CS（计算机系）出来的，哪怕还没看BP，心里已经默默把“技术天花板”那一栏调高了两格。

事实上这并不是某种玄学。如果翻看这群创业者过去十年在各自领域的轨迹，会发现他们都有点相似，总是不满足于只做一个插件，而是试图重写操作系统的底层逻辑，探向最前沿。

要理解今天的世界模型热潮，必须回到上一轮起点，大模型。

清华系创业者在上一轮中就是备受关注的焦点。智谱、面壁、月之暗面、生数科技等公司，都在不同阶段承担过追赶OpenAI的任务。如今，智谱凭借GLM系列模型的表现，更是成了国内承担“Anthropic追赶者”角色的新标杆。

从Aminer开始，唐杰团队本质上做的是一个“知识系统”。它不是模型，而是对人类学术世界的结构化表达。随后进入GLM阶段，这一系统被转化为语言模型，并在GPT-3发布之后迅速进入规模化竞争。

在智谱的决策逻辑中，有一个反复出现的关键词，就是“登顶”。在2021年的关键决策会上，团队讨论是否投入千万元级别资源追赶大模型时，内部的争议在于一个问题，就是这个方向是否值得“证明中国也可以做到世界级”。唐杰的表态很直接，如果成功，它至少能证明一件事，中国的大模型技术可以站在世界第一梯队。

在那个时间点，GPT-3已经发布一年多，谁也不知道国产模型的追赶能不能成功。唐杰在押注的同时也承受着“可能五年没有回报”的压力。而最终，这种追高的劲头也让国产模型有了自己的一席之地。

2024年智谱Open Day上，唐杰就明确表示要构建“认知驱动的世界模型”。智谱试图让模型不仅能聊天，还能自主操作手机 App、预订酒店、规划行程，模型需要对“手机界面”这个微观世界有深刻的理解，知道点开某个图标后会跳转到什么页面，支付失败后流程应该退回到哪一步。

而这种“环境交互”下的逻辑，是唐杰们探索世界模型的出发点。

如果说唐杰们代表了一种技术派的探索欲和好胜心，生数科技的CEO唐家渝与首席科学家朱军，更像是借着AI创业验证自己的理论研究。

朱军和唐家渝是生成模型领域的一对“清华师徒档”。朱军是在贝叶斯方法和生成模型学派的代表，在创建生数科技后，他们并未远离五道口，公司离清华园不过2公里。他们基于研究多年的扩散模型，得出结论，模型不应该只是输出一个结果，而应该输出一个关于结果的概率分布。

正是这种技术底色的推动，2024年生数科技自研了U-ViT架构，试图在统一的框架下处理视觉生成中的空间细节与时间连续性，让模型学习物理世界的时空规律。

Momenta创始人曹旭东更接近工程现实主义者。2016年那一波AI浪潮里，曹旭东没有选择去做离钱更近的感知模块供应商，而是要做自动驾驶大脑，处理远比“识别人脸”复杂得多的系统工程。这种和车企深度绑定的选择，也让Momenta在端到端自动驾驶积攒了快十年的真实场景数据。

而做自动驾驶，需要理解物理级交互，比如轮胎与地面的摩擦，也需要时空推演，能够预判行人和车辆和移动。更关键的是还要认知推理，理解交警手势和红绿灯。世界模型是他顺理成章的下一步。

这几个人的路径放在一起看，会发现他们都选择过“从头造轮子”。

唐杰自研了GLM系列，朱军没有用Stable Diffusion的现成框架，自研了U-ViT。Momenta的曹旭东在2016年就选择做全栈自动驾驶，而不是卖感知模块给车企，那意味着要把感知、决策、控制全部自己吃下来。他们在学术训练中习惯了面对没有现成轮子的问题，更能够接受以年为单位的长周期投入。

AI浪潮推到今天，传统商业逻辑里的短期优化不再适用，一个方向的正确性，可能需要多年才能验证。

对于这些创业者而言，当一个系统的关键环节被卡住时，最自然的选择不是绕过去，而是亲手把它做出来。博士阶段长期训练形成的习惯，让他们更倾向于追问底层问题、补齐核心能力。这几乎已经成为他们的肌肉记忆。

02 世界模型的三条路线

围绕世界模型，出身清华园的这批明星创业者，均选择从各自最擅长的系统出发去触碰不同的切面。

以智谱和面壁智能为代表，他们所追逐的世界模型，是一种长程、结构化的推理空间。

智谱在GLM体系之外，逐步将能力扩展到Agent以及交互的场域。面壁智能则更强调长上下文与推理能力，希望通过更长的“记忆窗口”，让模型具备持续建模能力。但这一路径都无法回避的问题，就是语言是否足够表达世界结构？

唐杰就不止一次表示，仅依靠大规模数据训练，模型能够学习海量数据统计相关性，却未必真正掌握知识背后的结构和因果关系。如果视频是时间切片，机器人是空间交互，那么语言模型更像是一种世界的压缩表达。在这一框架中，世界模型并不是简单地生成一个世界，而是让机器能够建立起对世界状态、因果关系以及演化规律的内部表征。

某种程度上，这也是越来越多清华系创业者转向世界模型的原因。

2024年7月WAIC上，唐杰就提出：“世界模型需要具备对物理规律和社会常识的理解，这种理解不是靠更多数据就能解决的，需要知识工程和深度学习的结合。”智谱从2025年开始频繁提及AutoGLM和Agent 战略，试图摸索出一条可行的技术路线。

而以生数科技为代表，他们眼里的世界模型，更像一个沿着时间轴铺开的超级视频生成引擎。

唐家渝和朱军团队在2024年推出国内首个对标Sora的长时长视频生成模型时，就将其定位为“时间维度的世界模拟”，他们用海量的视觉数据喂养出模型对常识物理的直觉。比如，当你抛出一个球，模型能预判它会因为重力而下坠，哪怕画面中没有出现地面，它也能脑补出抛物线。

生数科技的U-ViT 架构综合了Transformer和扩散模型，这条路线认定，一旦视频模型能够完美预测下一帧画面，它就可以变成一个高仿真的虚拟世界引擎，再反哺到具身智能和自动驾驶的研发。

Momenta更强调世界模型可以通过物理规律的重建，与实时交互来实现。

Momenta试图在数字空间中持续映射和理解真实世界，并通过数据闭环让系统不断学习和迭代，走出了一条感知、决策与自我进化相融合的路径。

曹旭东早在2016年就说过，自动驾驶的终极难题不是看见，而是理解和预判。作为早就在自动驾驶场景积攒出足量数据的玩家来说，车辆动力学、传感器仿真、路面摩擦系数、天气对能见度的影响等，这些必须有高精度的物理建模，这些模型验证通过后就可以直接“上车”进入真实世界，然后再收集真实路况数据用于模型训练。

6月23日，Momenta通过港交所聆讯，正式进入IPO冲刺阶段，有望成为物理AI第一股。

这意味着，Momenta为市场提供了一个更现实的答案，物理AI不是先有完美模型，再等待落地场景。更好的方式应该是，在量产场景中持续采集、训练、验证、上车，再回到真实世界继续进化。至少在自动驾驶领域，这个飞轮已经开始跑起来了。

03 清华系创业者和世界模型，都还在路上

需要注意的是，世界模型还在摇摇晃晃的学步阶段，离那个能装下整个物理与逻辑世界的宏大构想，还有遥远的距离。

今年，英伟达发布的NVIDIA Cosmos 3，标志着一个较大的、统一的世界模型的问世。不过相对最前沿的语言模型来说规模还小很多，展示了向通用任务（general task）扩展的能力。但在DeepMind发布Genie 2时，官方博客的措辞却非常谨慎，他们表示：“Genie 2是一个研究预览，并未公开发布。它展示的是未来可能实现的方向”。

世界模型的构想很好，但大多数人还感受不到。

这是因为，现阶段想让模型真正的去感知、理解世界，落地障碍几乎是全方位的。

首先就是物理真实性幻觉，包括生数科技Vidu、Runway、Sora在内的视频生成工具，当用户试图让AI生成一段视频，容易出现“物体穿模”。比如，让一个人喝水，杯子却穿过了手掌，或椅子突然像液体一样流动。这种模型对物理定律的违背，恰恰说明目前的视频生成模型还达不到严格的物理仿真。

除此之外，在语言模型的数据飞轮已经跑起来的当下，世界模型仍然太缺数据了。王兴兴在宇树量产机器人时发现，即便他们在仿真环境里把机器人练成了体操冠军，可一到真实世界，一块稍微反光的地砖、一个松散的鞋带，都能让机器人毫无征兆的倒地。

这种现象叫做 Sim-to-Real Gap（仿真与现实差距）。

世界模型需要无穷无尽的数据来覆盖现实世界的长尾问题，但很多物理细节，比如材质的摩擦系数、软体物体的形变、光线的散射，几乎不可能被穷举建模。人觉得理所当然的“杯子掉在地上会碎”的常识，对模型来说却需要理解材料脆性、重力加速度、地面硬度等多重属性，缺一条链条，推理就会崩溃。这是卡住所有模型厂商的难题。

“从宏观来看，现在大家所说的世界模型在技术栈上没有完全统一，还在各说各话。未来一段时间内的重要课题是，如何把所有下游任务（downstream task）的数据汇集到同一个模型架构中，并实现真正的 scale up。”Mind Lab首席科学家马骁腾博士告诉我们。

无论是产业方还是开发者，对于他们来说，世界模型目前大多还关在实验室和论文里。已经发布的模型，规模小的理解能力捉襟见肘，稍微复杂一点的物理交互就会崩溃。规模大的模型，在token成为新货币的现在，推理成本又过于高昂。世界模型距离“可堪大用”，还有实打实的距离。

有意思的是，唐杰很早就提出，仅靠语言统计相关性，很容易让模型沦为一个高水平的“鹦鹉”，能够流畅地生成答案，却未必真正理解世界。

过去十多年里，唐杰始终试图把认知图谱与神经网络结合起来，希望让机器建立类似人类的知识结构。某种程度上，这种执念甚至可以看作世界模型思路的一种早期版本。

因为现实很快证明，语言并不等于世界。即便到了AutoGLM 时代，当一个 App 更新了界面，按钮位置发生变化，Agent就会手足无措，模型也要重新学习。因为模型可以记住页面，但无法理解背后的运行规则。

当下，智谱正将世界模型视为攻克这块硬骨头的关键突破口。

这些或许正是清华系创业者的特点所在。世界模型仍在路上，这条路注定漫长。但回头看，从大模型到具身智能，再到世界模型，每一次技术跃迁的背后，似乎总能看到这群人的身影。他们未必总是最先抵达终点，却总愿意率先走进无人区。

上一篇：微信AI助手小微，还有许多做不到的事情｜产品观察

下一篇：7亿收入、万亿市值，智谱值吗？

返回列表

热文阅读

2 天前

长江存储市占率突破13%！韩国大厂发出警告：中国追兵杀到了

2 天前

马斯克又盯上AI基建：特斯拉要卖“算力积木”了

1 天前

车企营销不能再“乱吹”了，自动驾驶国标出台，明年7月实施

2 天前

美国新提案：「国有化」AI巨头，「全民持股」50%

1 天前

DeepSeek急急急缺人，外国人也要

2 天前

两个月融资两轮，智子芯元盯上芯片里没释放的算力

2 天前

欧莱雅携手OpenAI，以AI赋能美妆行业转型升级

1 天前

评奖赛事｜2026世界人工智能大会SAIL奖TOP30及青年优秀论文奖TOP20发布

1 天前

修了30年车，他们最后败给了新能源

1 天前

「AI几小时攻破NSA」刷屏，真相竟是一场红队演习？

上一篇：微信AI助手小微，还有许多做不到的事情｜产品观察

下一篇：7亿收入、万亿市值，智谱值吗？

Just Quick Just Quality

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们