7月10日,xAI正式发布Grok 4,这个被马斯克称为"世界上最智能AI"的家伙,直接把AI圈的天花板又捅了个窟窿。
碾压的Benchmark和跨级的表现都足够让人振奋。今年年初那种分数胶着、进步有限的模型发布序列,在今天被彻底打破了。
马斯克表示,"现在在学术问题上,Grok 4比博士水平在每个学科都要强,没有例外。"
xAI,率先跨入了下一代AI。
先说数据,再聊感受。
Benchmark这里,只有两个字去形容:超越。
最有代表性的有两个:
一是在被称为AI界"最后审判"的HLE(人类最后考试)中,Grok 4获得了45%的成绩。此前的冠军Gemini 2.5 Pro只有21%。直接翻倍。
这一考试集中了共计 2,500 道各个领域中最困难的问题。马斯克表示,"任何给定的人类,最好能得多少分?我乐观地说可能是5%。"
第二个在ARC AGI v2这个号称"推理能力试金石"的变态测试中,Grok 4拿到了15.8%,是第二名Claude 4Opus的2倍。这个测试在过去三个月里,只有Grok 4突破了10%大关。
而在其他顶级benchmark上,Grok 4基本实现了"屠榜":
●GBQA(博士级问题集):近乎完美表现
●AMC 25(美国数学邀请赛):Grok 4 Heavy版本满分
●Live Coding Benchmark:编程能力测试领先
●HMMT(哈佛-MIT数学竞赛):大幅领先第二名
●USAMO(美国数学奥林匹克):同样霸榜
在考试类的测试之外,xAI也顺应了“大模型进入下半场”的判断,特别强调了模型完成实际任务的能力。
在Vending Benchmark的模拟商业环境测试中,Grok 4赚的钱净资产是之前最高模型的两倍,运行时间也是它的两倍。在试验期间赚了4700多美元,水平远超普通人类。
这个和前一阵Anthropic实验在办公室让Claude4管理自动售货机是差不多一个测试,模型得负责选品、联系人员供货、根据销售情况调整策略。可以说是实打实的“数字员工”了。
对此,马斯克开玩笑说:"我们只需要一百万台自动售货机,每年就能赚47亿美元。"但这也意味着当下最前沿的AI,确实可以接管部分人类的商业决策了。
而在生物医学领域更夸张。帕洛阿尔托的ARC研究所已经在用Grok 4自动化CRISPR研究流程,"在几秒钟内从数百万个实验日志中筛选最佳假设"。
Grok 4在胸部X光检查评估中获得了最佳评分。
Grok团队还提到,一个他们合作的游戏设计师用Grok 4,4小时内撸出了一个完整的FPS游戏。Grok 4不仅编写游戏逻辑,还自动搜索和整合了所有素材、纹理、音效。
虽然效果一般,但这也是基础模型处理此类复杂工作的标杆了。
对此,马斯克预测:"第一个真正优秀的AI视频游戏会在明年出现,第一部可观看的AI电视节目今年就会有,第一部可观看的AI电影明年就能看到。"
所有这些数字和范例,其背后的含义已经很清晰了:Grok 4基本代表了ChatGPT 5、Gemini 3.0这一代模型的水准线。
AI竞争已经进入了新阶段。不再是你追我赶的小幅改进,而是代际差异的跨越式提升。而其他家还在憋大招,马斯克已经先声夺人了。
还是后发先至。
理论数字说完,来看实战表现。
发布会现场的演示都是全程Live演示,没有任何预录内容。
数学推理:范畴论的艺术
现场第一个挑战是一道关于"范畴论中自然变换"的数学题。这是个连数学博士都得思考半天的超难题。
Grok 4的推理过程清晰可见:先分析问题结构,然后逐步构建解决路径,最终给出正确答案。整个过程就像看一个数学天才在思考,每一步都有理有据。
有机化学:电环化反应
第二道题更变态——有机化学中的电环化反应机制。这种题目连化学PhD都不一定能秒答。
Grok 4不仅给出了正确答案,还详细解释了反应机制,包括轨道对称性分析。
语言学:希伯来语音韵学
不光理科强,Grok4文科也上了大题:从希伯来语源文本中区分开音节和闭音节。
这需要对希伯来语语音系统有深度理解。Grok 4不仅答对了,还解释了希伯来语音韵规则的历史演变。
实时搜索:找最奇怪的员工头像
现场演示中,有人让Grok 4"找XAI员工中头像最奇怪的人"。
Grok 4开始在X平台上搜索,识别XAI员工,分析头像风格,最终找到了Greg Yang——一个用搞怪照片做头像的研究员。这也展示了Grok在时事分析和热点追踪上的天然优势。
这个演示看似搞笑,实际细思极恐。Grok4属于完全理解了什么叫"奇怪",这意味着它具备了审美判断和文化理解。这种主观概念的掌握,可能比客观推理更难实现。
预测市场:世界大赛分析
最紧张的时刻是让AI预测MLB世界大赛胜率。
这次测试人员用上了更强版本Grok4heavy,它花了足足4.5分钟,浏览了大量网站,计算了复杂的概率模型、与市场进行比较、寻找优势、最终给出道奇队21.6%的胜率预测。
但让全场等待4.5分钟,这种"危险"的演示方式,本身就是对产品信心的终极展示。
物理模拟:黑洞碰撞可视化
最炫酷的是黑洞碰撞模拟。
Grok 4不仅生成了引力波可视化动画,还在思维链中详细解释了使用的物理近似、为什么要放大波幅、如何处理广义相对论效应等。
它甚至引用了本科生引力波教材作为参考。这种科学严谨性,已经达到了专业研究员水平。
发布会还展示了全新的语音能力。新增的Eve声音带着优雅的英国口音,但更重要的是情感表达。
当主持人说紧张时,Eve用温柔的声音说:"深呼吸,你能行的,就像我们坐在约克郡酒吧的角落里安静聊天..."
这种情感智能,可能比推理能力更重要。AI不只是更自然,而是有了真正的"个性"。
现场演示中,Eve不仅能正常对话,还即兴创作了一首关于可乐的歌剧:
"哦,可乐,你这神圣的甘露,气泡在银罐中舞蹈闪烁..."
在反应速度的展示中。Grok4更是直接用另一个手机把ChatGPT放出来了。ChatGPT虽然语音更自然,声音更丰富,但速度相当慢,一次回复要等个1秒多。但Grok4,基本是秒答。
这种现场PK的做法,很马斯克。直接正面硬刚,用实力说话。
这一展示,也至少补足了之前Grok多模态的一个小短板——语音功能。
这么强的模型,是怎么练出来的呢?
xAI团队现场放出了一张图,讲述了各代模型演进的逻辑。
从中我们可以清楚看到,Grok 4的底子还是Grok 3的预训练模型。
区别就在于,在别的公司,如Anthropic和谷歌还仅用10%-20%的算力做强化学习的时候,xAI团队决定All in RL。
强化学习好用,那就加10倍的量。
整个过程动用了xAI的Colossus超算集群——全球最大的AI训练农场,20万个GPU一起开工。这个规模什么概念?大概相当于其他公司几年的GPU预算,马斯克一口气全砸进去了。
但RL不是想做就做的出来的,这么大的算力,想真正让它跑通,得过奖励模型有效性和RL数据的大规模扩展两关。
对此,团队解释说:"我们发明了很多新技术,让模型能找到海量具有挑战性的强化学习问题。问题要有挑战性,同时还要有可靠的反馈信号。"
可惜的是这些技术都没开源。但能做到,就说明xAI的后训练技术应该确实达到了业内顶尖的水平。
另一个xAI在Grok4训练中强调的点是,让AI在训练过程中就原生地学会使用工具。
团队对此也做出了解释。“与Grok 3不同,虽然Grok 3也能使用工具,但我们在这里让它更加原生,也就是说我们把工具放到训练中。Grok 3只是依赖泛化能力,而这里我们实际上把工具放到训练中,结果证明这显著提升了模型使用这些工具的能力。”
这是他们从Deep Search中的得到经验。比起OpenAIDeepReasech端到端训练一个新模型,"Deep Search用的就是Grok 3推理模型,但没有任何特定训练,我们只是要求它使用这些工具。相比之下,它在工具使用能力方面要弱得多,而且不可靠。"
这个好处是极其显著的,在HLE的测试中,会使用工具的Grok 4比起纯文本Grok 4的能力提升了超过50%,而且依然符合SclaingLaw。
看到了这样有效的结果,马斯克表示他一定会在未来加码工具训练。
他说"当前Grok4使用的仍然是相当原始的工具,而非Tesla公司会使用的那种有限元分析和计算流体力学工具,但这是我们今年晚些时候会提供的。"
而这其实也是当前前沿AI都在做的事,在Claude 4发布的时候,Anthropic也对此作了特别说明。Grok只是追上了前沿。
所以,从训练方法上看,xAI的逻辑就是,用最保险的已验证方向,用最多的GPU,跑最极限的训练,走了一套"大力出奇迹"的路线。
难怪团队对训练的评价里有一句,"这就是为什么我们建造了Colossus,世界上拥有100,000个H100的超级计算机。"
Grok 4 Heavy是这场发布会上的另一项黑科技,它是首个以基础模型延展的形式命名的多智能体。
工作原理很有趣:系统同时启动多个AI智能体,让它们独立解决同一个问题,然后互相分享思路,最终得出最佳答案。
关键是它们不是简单投票,而是真正的思想碰撞。通常只有一个AI能找到突破点,但一旦分享给其他智能体,整个团队的表现就会飞跃。
在HLE测试中,单个Grok 4能解决40%的问题,但Grok 4 Heavy能解决超过50%。
xAI这次,属于是把基础模型最后肯定要往多Agent形态进化这件事儿挑明了。
各位Manus,下一步怎么走,现在得提前规划了。
定价对标OpenAI,分层
能力很强,但定价不低。
Grok 4的定价采用分层策略。
SuperGrok能解锁Grok4的能力,30美金一个月。
而Super Grok Heavy用户可以同时访问Grok 4和多智能体版本Grok 4Heavy,xAI的团队形容它能成为"一群小型研究助手的任务主管"。但这一档要300美金一个月。
目前看这个定价比当前前沿模型定价高了一些。但如果其能力的提升确实如此显著,这个价格也并不离谱。
API方面,Grok4支持256k上下文长度,已经开始向开发者开放。企业用户可通过超大规模云服务商获得访问权限。
在完成了Grok4的发布后,马斯克还透露了后续的整体路线图。
8月:专门编程模型
9月:多模态智能体
10月:视频生成模型
这个路线图相当紧凑,油门踩死。怪不得最近xAI的员工都在公司搭帐篷。
而且它的野心也相当大,Anthropic强在编程,我们8月做;Google强在多模态和Veo3,我们9、10月做。
尤其是多模态。对此,马斯克坦率地承认"Grok 4目前最大的弱点是,它的图像理解显然和图像生成都需要大幅改进。"
而这也可能是后续xAI最令人期待的突破。因为大力转向这儿了。预计用超过100,000个GB 200s训练视频模型,并在接下来的三到四周内开始训练,所以我们相信在视频生成和视频理解方面将会相当spectacular。
不过现在还没训练,10月就要上线。xAI的同学们头发有点危险。
这都是因为马斯克这个人,不会留短板。
而且回顾Grok的历史,我们也能看到其速度上的优势。18个月四代产品,这个迭代速度在AI圈独一份。马斯克回顾说:"12个月前Grok 2还只是概念,现在已经到Grok 4了。"
对比一下苹果AI的一地鸡毛,后发制人不是不可能,还是得看谁后发。
马斯克说在发布会上说:"我们正在智能大爆炸中,这是历史上最有趣的时代。"
这话不夸张。Grok 4在这次发布会上展现的不只是一个新模型的能力,而是它是AI进入下一阶段的标志。
更长程的任务,更强的工具使用,更像Agent的基础模型,更落地的测试。
这是一场直面AI下半场的发布会。在之前,Grok 和 xAI 还在谷歌和OpenAI的阴影下,今天它站在了光下。
没有OpenAI的范式性创新,没有谷歌的大一统模型理想坚持。有的就是卡多、人累、工程极致。
马斯克最后说:"我们会是最快发展的AI公司。" 基于今天看到的表现,这不是吹牛,这是事实。
对于快这件事,他认为的他的速度能达到"Grok会在今年年底发现新技术,明年可能发现新物理学。在两年内,我几乎确定会有重大发现。"
而在此速度下,人类的未来在马斯克眼中讲天翻地覆。"我们现在可能只是卡尔达肖夫一级的1-2%。我们将达到80-90%,然后是卡尔达肖夫二级。未来的人类经济会让现在的经济显得像穴居人往火里扔棍子一样原始。"
这么快的进化速度,我们怎么保证AI的安全?
也许对与他来讲这都不如“朝闻道”更重要。
在发布会的末尾,他说了一句"即使AI对人类不是好事,我至少想活着看到它发生。"