都别争了，放着我来：Gemini 3生成一切 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

都别争了，放着我来：Gemini 3生成一切

2025-11-19 / 阅读约8分钟

来源：36kr

Gemini 3 Pro上线，以强大实力碾压各大模型，具备生成3D模型、做网站、开发游戏等多模态能力。其生成式UI和编程能力突出，能自主跟进开发进展，成为程序员生产力助手。

终于，在吊了大家很久胃口之后，昨晚 Gemini 3 上线。用近乎恐怖的实力，碾压各大模型。

一句话就能生成 3D 模型、做网站，甚至做一个开放世界游戏……

现在，进入 Google AI Studio，你就能直接体验 Gemini 3 Pro 预览版。至于面向更加大众的 Gemini 网站和 app，也会很快上线。

我不是针对谁，我是说在座的各位……

Gemini 3 Pro 晒出成绩单，它不仅完全把前辈 Gemini 2.5 Pro 拍死在沙滩上，还在除“解决真实 GitHub 问题（SWE-Bench Verified）”这一项之外，全面碾压了 Claude Sonnet 4.5 和 GPT-5.1。

这就好像一个班里有几个语数外偏科的尖子生，这时候来了一个各科满分的三好生小霸王，你说气人不？吓人不？

学霸的成绩单里，有几项值得重点关注。

ARC-AGI-2 这一项，Gemini 3 Pro 以 31.1% 的成绩断层领先第二名的 Claude Sonnet 4.5。这是用来检验 AI 抽象推理能力的高难度测试，被认为是检验通用人工智能水平的重要标准。

AIME 2025 和 MathArena Apex 代表的是解决数学问题的能力。其中，Gemini 3 Pro 在 MathArena Apex 这一项拿下了 23.4% 的分数。别看分数不高，对手们只有不到 2%，可能是连题目都还读不懂呢。

ScreenSpot-Pro 和 Vending-Bench 2 这两项就有意思了。前者用来评估 AI 能否像人类一样看懂 UI 界面并进行操作，而后者则是测试 AI 在复杂长程任务和跨场景下的任务执行能力。

翻译一下：Gemini 成了 Siri 想而不得的样子。

假设倒霉老板（我说可是你的）把会议临时改到了傍晚，你担心开完会赶不上女儿的演出。这时候你问 AI，AI 调取你手机里的各种数据，比如会议结束时几点，日历里演出是几点，那段时间路况大概如何之后，判断你能不能顺利赶上。

隔壁花了两年时间还在“预备”，谷歌现在直接给你端上来了。

谷歌全家桶下，开启 Gemini Agent 模式，并对 Gemini 授权，它就能调动你手里各种谷歌设备里的数据，帮你实现上述的例子。

再比如，你对 Gemini说，“根据我邮件里的信息，帮我预定一辆下周旅行需要租的中型 SUV，租金不超过 80 美元一天。”然后你下了飞机，直接取车就完了。

还有一项，它在被誉为“人类最后一场闭卷考试”的“Humanity's Last Exam”这一项中也拿下目前最高分37.5%，比第二名 GPT-5.1 的 26.5% 高出一大截。

也就是说，Gemini 3 Pro 是目前最接近“人类通才”的模型。

到这还没完。当开启 Gemini 3 Deep Think（深度思考模式）后，它在“Humanity's Last Exam”成绩还能在不使用工具的情况下将分数提升到 41%。此外，面对需要严密逻辑和专业知识的复杂科学问题（GPQA Diamond）时，Gemini 3 Deep Think 拿下了 93.8% 的高分。

上面提到的 ARC-AGI-2，Gemini 3 Deep Think 更是斩获 45.1% 的高分，把只拿了 4.9% 的 Gemini 2.5 Pro 按在地上摩擦。

设计师危险了

过去，如果要开发一款 app 或网页，就需要设计师先画出 UI 及各种素材，然后再由程序员用代码调用，最终实现一个可交互的产品发布。

而现在用一句话，就能让 Gemini 做出高质量的交互式 SVG。比如下面这个在 X 上很火的“电风扇”，不仅图像精美，而且还能动、能交互，完全到了可以直接拿来用的程度。

除此之外，还有网友让 Gemini 画“游戏里的水管工”；

五缸的发动机......

我也尝试让 Gemini 画了一个灯泡，还给灯泡加了个可以操作的开关，它 35 秒就帮我搞定了；

以及复刻一下我家的猫咪，别说，画得可还真像。

可交互的 SVG 不只是让大家玩得开心。它有更大的意义和野心。

谷歌表示，基于 Gemini 3 强大的推理和多模态能力，他们将在未来的 Gemini App 里推出一个名叫“生成式 UI”的新功能。

简单来说，Gemini 应用未来可以直接用可交互的 UI 来回答你的问题，响应你的指令。而不再是以往一个模子刻出来，“一问一答”的大模型交互形态和使用方式了。

比如，谷歌官方的例子，让 Gemini 给你计划一个明年夏天去罗马的 3 天旅行。然后，它就会生成一个类似杂志一样的动态内容，你不仅可以浏览，还能点进去和里面的元素交互。

这种多模态的能力大概也是谷歌口中可以”建造任何东西”的底气了。

（部分）程序员又一次更危险了……

某种意义上来说，SVG 画图也是编程的一种。说到编程，那可就是 Gemini 的拿手好戏了。

根据 X 上的网友测试，Gemini 3 Pro 在 DesignArena 的好几个项目里又是断层第一。

现在，只要一段不那么长的描述，就能让 Gemini 3 给你写个“macOS 操作系统”。点击运行之后，它不仅会走一遍“开机”的流程，更厉害的是，你还能在它写的“macOS”里上网冲浪、跑终端……

这还属于基本操作。有网友让 Gemini 3 做了个《我的世界》，Gemini 做得像模像样。

我自己也实际测了一番。我让 Gemini 帮我做了个个人网站，要求是有四个页面，分别是主页、个人介绍、作品、联系方式。风格要现代简约，高端大气。

Gemini 只用一分半钟的时间就搞定了。导航栏还用了苹果同样的毛玻璃风格，而且连里面的按钮、输入框都是有效的状态，不是纯粹的装饰性内容。

不过，目前生成的网页只能算中规中矩。

于是我和它说，“我想要全球顶尖设计工作室网站的风格，色彩和排版可以更大胆一些。”

45 秒之后，Gemini 3 Pro 的交付让我惊叹。

至于复刻某个设计，那就更不是难事了。

我还看到更离谱的，X 的网友让 Gemini 3 做了个 3D 乐高编辑器，一次性实现了用户界面、代码构建和他需要的各项功能。

在 Gemini 3 Pro 上线不到一个小时的时间，Cursor 这类 vibe coding 软件就在第一时间提供了支持。

而面对专业的开发者，谷歌也发布了 Antigravity，一个看似是 IDE 实则是 vibe coding 的平台。它让 AI 真正成为了程序员的“生产力助手”，能自主跟进开发进展、做任务列表或者 PPT、写代码，然后再自己去浏览器里验证代码的效果，甚至还能自我总结和提升。

在这个过程里，Antigravity 还会学习你的代码风格和各种开发偏好。

这样看，或许跑分没那么重要了，比起切实打破“想”和“做”之间的壁垒。就拿写代码来说，技术的门槛已经被铲地七七八八，写前端代码，调框架也许都没那么重要了，能拉开人和人之间差距的，就只有想象力了。

正如谷歌所说，Gemini 1 打一开始就具备多模态能力，Gemini 2 具备更强的推理能力，让 AI Agents 能自主思考、编程、行动。Gemini 3 借助全新的生成式 UI 界面，生成用户想要的各种各样输出格式。可以说一路稳扎稳打，套用一句网络流行语，他们都看好你，恰好，你也挺争气的。

配图来源：Google与作者提供

上一篇：雇个AI贴发票，这钱花得值吗？

下一篇：真正理解人工智能的三个简单原则

返回列表

热文阅读

2 天前

丰田章男：看到大家都在向电动汽车靠拢，自己感到非常“孤独”

2 天前

梁文锋当年高考状元照片，及报道曝光：过了清华线，报了浙大

2 天前

公开版Mythos上线，Claude 最强模型开始分层发售

2 天前