都别争了,放着我来:Gemini 3生成一切
13 小时前 / 阅读约8分钟
来源:36kr
Gemini 3 Pro上线,以强大实力碾压各大模型,具备生成3D模型、做网站、开发游戏等多模态能力。其生成式UI和编程能力突出,能自主跟进开发进展,成为程序员生产力助手。

终于,在吊了大家很久胃口之后,昨晚 Gemini 3 上线。用近乎恐怖的实力,碾压各大模型。

一句话就能生成 3D 模型、做网站,甚至做一个开放世界游戏……

现在,进入 Google AI Studio,你就能直接体验 Gemini 3 Pro 预览版。至于面向更加大众的 Gemini 网站和 app,也会很快上线。

我不是针对谁,我是说在座的各位……

Gemini 3 Pro 晒出成绩单,它不仅完全把前辈 Gemini 2.5 Pro 拍死在沙滩上,还在除“解决真实 GitHub 问题(SWE-Bench Verified)”这一项之外,全面碾压了 Claude Sonnet 4.5 和 GPT-5.1。

这就好像一个班里有几个语数外偏科的尖子生,这时候来了一个各科满分的三好生小霸王,你说气人不?吓人不?

学霸的成绩单里,有几项值得重点关注。

ARC-AGI-2 这一项,Gemini 3 Pro 以 31.1% 的成绩断层领先第二名的 Claude Sonnet 4.5。这是用来检验 AI 抽象推理能力的高难度测试,被认为是检验通用人工智能水平的重要标准。

AIME 2025 和 MathArena Apex 代表的是解决数学问题的能力。其中,Gemini 3 Pro 在 MathArena Apex 这一项拿下了 23.4% 的分数。别看分数不高,对手们只有不到 2%,可能是连题目都还读不懂呢。

ScreenSpot-Pro 和 Vending-Bench 2 这两项就有意思了。前者用来评估 AI 能否像人类一样看懂 UI 界面并进行操作,而后者则是测试 AI 在复杂长程任务和跨场景下的任务执行能力。

翻译一下:Gemini 成了 Siri 想而不得的样子。

假设倒霉老板(我说可是你的)把会议临时改到了傍晚,你担心开完会赶不上女儿的演出。这时候你问 AI,AI 调取你手机里的各种数据,比如会议结束时几点,日历里演出是几点,那段时间路况大概如何之后,判断你能不能顺利赶上。

隔壁花了两年时间还在“预备”,谷歌现在直接给你端上来了。

谷歌全家桶下,开启 Gemini Agent 模式,并对 Gemini 授权,它就能调动你手里各种谷歌设备里的数据,帮你实现上述的例子。

再比如,你对 Gemini说,“根据我邮件里的信息,帮我预定一辆下周旅行需要租的中型 SUV,租金不超过 80 美元一天。”然后你下了飞机,直接取车就完了。

还有一项,它在被誉为“人类最后一场闭卷考试”的“Humanity's Last Exam”这一项中也拿下目前最高分37.5%,比第二名 GPT-5.1 的 26.5% 高出一大截。

也就是说,Gemini 3 Pro 是目前最接近“人类通才”的模型。

到这还没完。当开启 Gemini 3 Deep Think(深度思考模式)后,它在“Humanity's Last Exam”成绩还能在不使用工具的情况下将分数提升到 41%。此外,面对需要严密逻辑和专业知识的复杂科学问题(GPQA Diamond)时,Gemini 3 Deep Think 拿下了 93.8% 的高分。

上面提到的 ARC-AGI-2,Gemini 3 Deep Think 更是斩获 45.1% 的高分,把只拿了 4.9% 的 Gemini 2.5 Pro 按在地上摩擦。

设计师危险了

过去,如果要开发一款 app 或网页,就需要设计师先画出 UI 及各种素材,然后再由程序员用代码调用,最终实现一个可交互的产品发布。

而现在用一句话,就能让 Gemini 做出高质量的交互式 SVG。比如下面这个在 X 上很火的“电风扇”,不仅图像精美,而且还能动、能交互,完全到了可以直接拿来用的程度。

除此之外,还有网友让 Gemini 画“游戏里的水管工”;

五缸的发动机......

我也尝试让 Gemini 画了一个灯泡,还给灯泡加了个可以操作的开关,它 35 秒就帮我搞定了;

以及复刻一下我家的猫咪,别说,画得可还真像。

可交互的 SVG 不只是让大家玩得开心。它有更大的意义和野心。

谷歌表示,基于 Gemini 3 强大的推理和多模态能力,他们将在未来的 Gemini App 里推出一个名叫“生成式 UI”的新功能。

简单来说,Gemini 应用未来可以直接用可交互的 UI 来回答你的问题,响应你的指令。而不再是以往一个模子刻出来,“一问一答”的大模型交互形态和使用方式了。

比如,谷歌官方的例子,让 Gemini 给你计划一个明年夏天去罗马的 3 天旅行。然后,它就会生成一个类似杂志一样的动态内容,你不仅可以浏览,还能点进去和里面的元素交互。

这种多模态的能力大概也是谷歌口中可以”建造任何东西”的底气了。

(部分)程序员又一次更危险了……

某种意义上来说,SVG 画图也是编程的一种。说到编程,那可就是 Gemini 的拿手好戏了。

根据 X 上的网友测试,Gemini 3 Pro 在 DesignArena 的好几个项目里又是断层第一。

现在,只要一段不那么长的描述,就能让 Gemini 3 给你写个“macOS 操作系统”。点击运行之后,它不仅会走一遍“开机”的流程,更厉害的是,你还能在它写的“macOS”里上网冲浪、跑终端……

这还属于基本操作。有网友让 Gemini 3 做了个《我的世界》,Gemini 做得像模像样。

我自己也实际测了一番。我让 Gemini 帮我做了个个人网站,要求是有四个页面,分别是主页、个人介绍、作品、联系方式。风格要现代简约,高端大气。

Gemini 只用一分半钟的时间就搞定了。导航栏还用了苹果同样的毛玻璃风格,而且连里面的按钮、输入框都是有效的状态,不是纯粹的装饰性内容。

不过,目前生成的网页只能算中规中矩。

于是我和它说,“我想要全球顶尖设计工作室网站的风格,色彩和排版可以更大胆一些。”

45 秒之后,Gemini 3 Pro 的交付让我惊叹。

至于复刻某个设计,那就更不是难事了。

我还看到更离谱的,X 的网友让 Gemini 3 做了个 3D 乐高编辑器,一次性实现了用户界面、代码构建和他需要的各项功能。

在 Gemini 3 Pro 上线不到一个小时的时间,Cursor 这类 vibe coding 软件就在第一时间提供了支持。

而面对专业的开发者,谷歌也发布了 Antigravity,一个看似是 IDE 实则是 vibe coding 的平台。它让 AI 真正成为了程序员的“生产力助手”,能自主跟进开发进展、做任务列表或者 PPT、写代码,然后再自己去浏览器里验证代码的效果,甚至还能自我总结和提升。

在这个过程里,Antigravity 还会学习你的代码风格和各种开发偏好。

这样看,或许跑分没那么重要了,比起切实打破“想”和“做”之间的壁垒。就拿写代码来说,技术的门槛已经被铲地七七八八,写前端代码,调框架也许都没那么重要了,能拉开人和人之间差距的,就只有想象力了

正如谷歌所说,Gemini 1 打一开始就具备多模态能力,Gemini 2 具备更强的推理能力,让 AI Agents 能自主思考、编程、行动。Gemini 3 借助全新的生成式 UI 界面,生成用户想要的各种各样输出格式。可以说一路稳扎稳打,套用一句网络流行语,他们都看好你,恰好,你也挺争气的。

配图来源:Google与作者提供