AI界又出现了一个超级独角兽。
AI领域从不缺乏颠覆性事件,却极少有一家公司能像Thinking Machines Lab 这样,在成立仅七个月、尚未推出正式产品、甚至没有实际用户的情况下,就以120亿美元(折合人民币850亿元)的估值惊艳全球行业。
这家由前OpenAI首席技术官(CTO)Mira Murati牵头创立的人工智能研究公司,凭借三十余人的“豪华团队”,其中还包括OpenAI前安全研究副总裁、北大女学霸翁荔,不仅顺利完成20亿美元种子轮融资,更吸引了AMD、英伟达等行业巨头争相注资,一跃成为OpenAI、Anthropic和Google DeepMind等头部企业的潜在劲敌。
不同于传统创业公司“产品先行”的路径,Thinking Machines Lab从诞生之初就自带“颠覆属性”。其核心团队几乎全员来自OpenAI,涵盖了AI产品落地、核心技术研发等关键领域的顶尖人才,这种“顶配阵容”让市场看到了复刻甚至超越OpenAI的可能性。
更值得关注的是,公司在无产品的情况下,选择以技术研究成果为“名片”,通过发布研究博客和学术论文,向行业传递其在多模态基础模型与下一代人机协作领域的布局,这种“技术驱动”的打法,也为AI初创公司的发展提供了全新范本 。
成立七个月、没有产品也没有用户的公司被大佬们争先投资,估值120亿美元(折合人民币850亿)。
Thinking Machines Lab就是这么一家神奇的公司。
Thinking Machines Lab由前OpenAI首席技术官Mira Murati于2025年2月创立,是一家聚焦多模态基础模型与下一代人机协作的人工智能研究公司;创立仅半年,便凭约三十人、三分之二出自OpenAI的豪华团队完成由Andreessen Horowitz领投、英伟达与AMD跟投的20亿美元种子轮,估值高达120亿美元,并已与Google Cloud达成算力合作,计划在未来几个月内发布包含开源组件的首款产品,以帮助研究人员和初创公司定制自己的AI模型,同时正大规模招揽具备AI产品经验的人才,被视为OpenAI、Anthropic和Google DeepMind的有力挑战者。
为什么一家甚至还“没有产品”的公司能获得这么高的期待?这离不开“人、卡、势”的三重优势。
人的方面,Thinking Machines Lab可谓拥有顶级初创团队。创始人Mira Murati是前OpenAI CTO,曾经一手把ChatGPT、DALL-E、GPT-4做成全球级产品;联创Barret Zoph、John Schulman等人同样是Transformer与RLHF路线的核心作者。
对投资机构而言,这支30人左右的小分队几乎是一张“全明星期权”:只要他们未来24个月里放出任何一条新曲线,就能直接对标OpenAI的1500亿估值,850亿只是提前折现。
卡的方面,大模型竞争已变成GPU军备赛。Thinking Machines Lab在官宣当天就拿到英伟达、AMD的联合注资,等于一次性锁定几万张H100/H200的配额。在“得显卡者得天下”的共识下,资本宁愿把估值一次性打满,也不愿在卡更加稀缺的6个月后再去追高。
势的方面,2024-2025年,AI估值模型从“收入P/S”迅速让位于“生态席位费”:全球能真正从头训练GPT-4级稠密模型的团队不超过5家,新名单已经关闭。Thinking Machines Lab是最后一个由“原OpenAI核心决策层”整体出走的标的,一旦错过,下一个同等量级的叙事窗口可能3年后才出现。850亿里有一半买的是“席位”,而不是产品。
再加上二级市场对AI的FOMO情绪外溢:只要公司放出“我们已能稳定训练100B以上多模态模型”的技术博客,哪怕没有对外API,二级市场就会用OpenAI 1500亿、Anthropic 600亿的锚直接做线性插值,把850亿“合理化”。因此,850亿并不是传统意义上的“收入估值”,而是“叙事+算力+人才”三位一体的看涨期权定价;真到下一轮产品落地,如果模型性能或商业化不及预期,估值同样可能迅速回调。
在Thinking Machines Lab背后的投资人中,英伟达和AMD备受关注。
英伟达和AMD投资Thinking Machines Lab,表面看是“投人”,骨子里是“买入口、锁需求、抢话语权”。把高端GPU直接塞进下一代“杀手级”模型,训练GPT-4.5级以上的多模态稠密模型,单集群就要几万张H100/H200,谁先抢到卡,谁就拥有下一个“爆款”入口。
英伟达和AMD把资本换成股权,等于把“卖卡”前置成“占股+绑定采购”,一次性锁定未来可能高达3-4万颗高端GPU的确定需求,避免被“自研芯片”计划截胡。
用“客户即股东”模式抬高竞品拿卡门槛,英伟达和AMD通过入股Thinking Machines Lab,把稀缺卡优先供给“自己人”,变相让竞争对手排队更久,从而延缓别家模型迭代节奏,巩固自身生态节奏话语权。
前几天,Thinking Machines Lab发表了一篇论文,这也是少见的论文比产品先行的创业公司。
Thinking Machines开辟了研究博客专栏「Connectionism」(联结主义),发表了第一篇博客文章“Defeating Nondeterminism in LLM Inference”(击败LLM推理中的非确定性)。
文中提到,尽管将温度参数设为0(即采用贪婪采样),LLM的输出仍然可能出现不一致。这种现象在实际应用中普遍存在,即使在相同的输入和模型配置下,多次运行得到的结果也可能不同。
对此,一种流行的解释是,这种现象是由于浮点数的非结合性(即浮点加法不满足结合律)和GPU并行计算中的原子操作竞争条件共同导致的。论文将这一观点称为“并发+浮点数”假说。
论文深入研究了LLM推理过程中使用的GPU内核,发现虽然浮点数的非结合性是导致数值差异的根本原因,但并发执行中的原子操作并非LLM推理非确定性的主要来源。提出“批大小变化”理论:作者指出,LLM推理中的非确定性主要源于服务器负载的变化,这会导致每次推理时的批大小(batch size)不同。而现有的GPU内核在设计上缺乏“批不变性”(batch invariance),即计算结果会随着批大小的变化而变化。
通过实验,论文展示了即使运行相同的矩阵乘法,当批大小不同时,得到的结果也可能存在显著差异。这表明,LLM推理系统在处理不同负载时,由于缺乏批不变性,会导致输出结果的不一致。作者提出,要解决非确定性问题,需要确保LLM推理中涉及的关键计算内核(如RMSNorm、矩阵乘法和注意力机制)具备批不变性。具体来说,要保证无论批大小如何变化,每个样本的归约(reduction)计算顺序都保持一致。
简单来说,文章研究的是如何提升模型输出的稳定性和可预测性。
这一点对用户来说至关重要,因为这直接关系到用户对AI系统的信任、开发者对问题的调试能力、系统的公平性与合规性、强化学习中的训练一致性、用户体验的稳定性以及科学研究的可复现性。
如果同一个问题每次询问AI都得到不同的答案,用户会质疑模型的可靠性,尤其是在法律、医疗、金融、教育等高风险领域,输出的一致性直接影响用户对系统的信任。开发者也需要可复现的模型输出,以便稳定地复现bug并进行修复,这是软件测试、回归测试和模型评估的基础。
此外,如果模型对相同输入给出不同输出,可能意味着某些群体或输入被系统性区别对待,这在审计、合规和公平性评估中是不可接受的,因为必须确保模型行为一致才能判断是否公平。在强化学习中,训练时使用的采样策略与推理时必须保持一致,否则会导致策略漂移,使模型表现下降,非确定性还会让“on-policy RL”变成“off-policy RL”,从而破坏训练目标。
最重要的是,用户也期望AI产品像传统软件一样稳定,如果今天问“如何报税”得到一个答案,明天又变了,用户会感到困惑甚至愤怒,对企业来说,输出一致性是服务质量的一部分,直接影响品牌声誉。科学研究同样需要可复现的实验结果来比较不同模型或算法的优劣,如果模型输出每次都不同,就无法判断是模型改进带来的提升还是随机波动。因此,可预测性和可重复性不是技术细节,而是AI系统能否被人类信任、部署和规模化使用的底线要求,就像一台每次按键都打出不同字母的键盘无法被信任或改进一样,不可复现的AI也无法被真正应用。
Thinking Machines Lab的出圈,似乎也给AI大模型初创公司一些新的启示。
在追求模型性能的同时,必须高度重视输出的可预测性和可重复性,这是赢得用户信任、确保系统可靠性的关键,尤其在医疗、金融等高风险领域,一致性直接关系到用户是否敢用、愿用。
其次,技术透明和深入剖析问题根源至关重要,Thinking Machines Lab通过揭示LLM非确定性源于批大小变化而非浮点并发,表明AI公司应敢于挑战行业常识,用扎实研究拨开迷雾,这种“技术诚实”本身就是品牌力。
工程优化与学术研究需紧密结合,AI公司不能仅停留在算法层面,而要下沉到GPU内核、数值计算顺序等底层细节,通过批不变性内核、固定分块策略等工程手段,将理论确定性真正落地为产品确定性。
除此之外,开发者体验是生态护城河,提供可复现的推理结果、开源批不变算子库、支持确定性模式,能极大降低开发者调试和部署成本,吸引社区共建,形成“越用越稳”的飞轮。
确定性推理为AI高级应用铺平道路,强化学习、在线评估、合规审计、模型对比等场景都要求训练与推理零偏差,AI公司若率先解决非确定性,就能在RLHF、法律审计、金融风控等高价值市场占据先机。
Thinking Machines Lab以小团队切入“大模型基础设施痛点”并快速引发关注,提示AI公司不必卷参数、卷规模,而是可以聚焦“别人忽视的确定性缝隙”,用极致工程创新打出差异化,告诉行业:性能不是唯一指标,稳定、可信、可复现,才是AI大规模商用的真正门票。
纵观AI大模型行业的发展,也开启了下一个时。模型架构将更加注重效率与可解释性,不再单纯追求参数规模,而是探索如混合专家模型、稀疏激活、线性注意力等机制,在降低计算成本的同时维持性能,同时提升模型决策过程的可解释性以符合监管要求。
"确定性AI"将成为商业化分水岭,随着Thinking Machines Lab揭示非确定性根源,行业将加速推进批不变性内核、数值稳定算法及标准化测试协议,确保医疗、金融等关键场景的输出可复现,可能催生专门的"可信AI"认证体系。
训练推理一体化重构,边缘-云协同的分布式训练框架将成熟,支持千亿级模型在消费级硬件上微调,配合动态批处理、内存压缩技术实现"本地私有化部署+云端弹性扩展"的混合模式。第四,多模态融合进入2.0阶段,文本、视觉、音频、传感器数据将在统一token空间中进行原生融合,出现专为机器人、车载终端设计的"物理世界大模型",推动AI从数字交互向实体操作进化。
未来,人机协作范式转变,模型将具备实时置信度评估能力,在不确定时主动调用工具或请求人类介入,推动"AI-人类混合决策链"成为企业标配工作流程。能源效率成为核心指标,行业可能建立"每token能耗"评级制度,驱动液冷服务器、模型压缩技术普及,预计2027年主流模型推理能耗将比2024年降低一个数量级。
这些趋势共同指向一个未来:AI大模型将从"暴力计算"转向"精密工程",在可控、可信、可持续的基础上,真正成为社会关键基础设施。