谷歌 Nano Banana 2 一夜补齐短板,各种图解都能画,价格才是 OpenAI 一半
3 小时前 / 阅读约9分钟
来源:36kr
谷歌Nano Banana 2上线,主打“极速体验”+“专业画质”,新增“实时联网”能力,可边理解、检索、生成,画面贴合真实世界。功能全面升级,已在Google产品体系替换。

深夜炸场!文生图圈又被谷歌“炸”了一次。Nano Banana 2 突然上线,直接登顶榜首。

这次,Nano Banana 2 主打“极速体验”+“专业画质”。但真正拉开差距的是一个新能力—“实时联网”

简单来说,这不再是一个“只会画画”的模型。它背后接的是 Gemini 整套搜索能力,相当于给图像模型装上了一个能查资料的“大脑”

当模型可以边理解、边检索、边生成,画面就不只是“好看”,而是更贴合真实世界的信息结构。

比如,一句话生成的街景,细节多到能放大看招牌。远处的广告牌、路牌、橱窗陈列都像是真实拍摄。

再比如,让“劈柴哥”给你递烟,人物神态、肢体逻辑、环境光影都到位。如果不说,很难一眼断定是 AI 生成。

劈柴哥还亲自站台,Cue 了一下“靠窗座位”的玩法,只要一句话,无论是繁华都市夜景,还是荒野雪山木屋,你都能精准生成“窗口视角”的构图,每一帧都基于真实的地理和气象信息,清晰展现“实时联网”能力有多强大。

不过,“画得像”只是第一步。更重要的是,它打开了一个新方向“信息图生成”,这可就非常实用了。

前段时间有个很火的模型梗:

我想洗车。洗车场离我 50 米。我应该走过去还是开车过去?

不少顶尖模型翻了车,给出“步行更环保”的答案。问题在哪?它们只分析了“50 米”,却忽略了“洗车的目标”。

谷歌直接生成了一张图,对比“走路”和“开车”的逻辑链,给出正确结论,既展现了 Gemini 的强大思考能力,还展现了 Banana2 的一流绘图能力。网友表示“这是无声的炫耀”。

在不少网友看来,图像生成似乎又上了一个台阶,弥合了与真实世界之间的鸿沟。

不过也有网友对此表达了深刻担忧,当图像越来越难分真假,AI 造假会不会更泛滥?

对此,谷歌给出的方案是“溯源”。Nano Banana 2 生成的内容,会叠加 SynthID 水印,并结合 C2PA 内容凭证体系,方便平台识别来源。

目前文生图的追逐战进入焦灼阶段,在权威图像模型测评 Artificial Analysis 榜单中,可以看到,前三名里两个被 Nano Banana 系列包揽。其中,Nano Banana 2 位列第一,图像编辑能力第三,价格却只有第二名 OpenAI 的一半,堪称“性价比之王”。

不过从分数看,头部模型之间的差距其实非常小。行业已经进入贴身肉搏阶段。

谷歌上个月披露,Gemini 应用月活跃用户达到 6.5 亿。官方高管也承认,Nano Banana 的“病毒式传播”是增长的重要原因之一。

文生图的竞争,已经不只是比画面,而是比速度、比理解力、比生态整合。

网友玩嗨了,“实时联网”为文生图带来什么不同?

行或不行,上手再说。网友们从各种角度开始测评。

有人用来测试一张手镯图做视觉设计方案,结果令他震惊,直呼“设计已死”。

有人称这是世界上最好的图像模型,生成的图片细节可以以假乱真。

有人惊呼,连图片上每张卡片的文字都准确无误。

有人干脆用来生成碑文,又快又好,效果震撼。

有网友认为,这次 Nanana2 的可控性太强了,人物细节贴合想要的效果,而且十分逼真。

而且人物无论怎么变化,都不会变形。

整体的视觉效果也更“去 AI 味”。

做绘本更是手到擒来。

人们似乎都被 Banana2 折服了。

在众多测评中,大家还非常关心“实时联网”这一新功能的升级,能“实时联网”的图到底和过去的生成图有什么不同,强在哪里,又有多实用。

先来看官方案例。Banana 2 生成了一张颇具“手工风”的水循环示意图:棉花做云、纸片当山、玻璃碗装海水,质感细节到位。更关键的是,它不仅理解力在线,把蒸发、凝结、降水、汇集的完整链路讲清楚了,而且文字标注也全部准确,对应关系清晰,没有逻辑跳步。

还有网友拿它来制作食谱,效果同样惊艳:排版、分区、步骤结构都像专业设计稿。她直言,大家低估了 Nano Banana 2 的“可视化能力”,这将颠覆信息图表领域。

更详细的食谱图和科普图也被陆续晒出。

甚至拿来做医学解剖图,也相当能打,手绘草图秒变专业科普制图。

这种将抽象概念可视化的能力,正在释放文生图更大的想象空间。它不再只是“生成好看的图片”,而是开始承担知识组织与表达的角色。

  • 在教育里,抽象概念可以直接变成一张清晰的图,学生不用啃厚书,一眼就能看懂逻辑。
  • 在科研中,复杂的环境模型、气候机制能快速变成示意图,不同专业的人沟通更高效。
  • 在政策汇报、企业报告和数据分析场景里,冗长材料也能被压缩成重点明确的可视化内容,让人迅速抓住核心......

它打开的就不仅是设计效率,而是表达效率。,让复杂问题变得可被看见、被理解、被讨论。

谷歌产品负责人 Logan Kilpatrick 也表示,实时联网能力会催生大量新的应用场景。当模型不再只依赖训练数据,而是可以调用最新信息进行理解与生成,图像就不只是创作工具,而开始成为实时知识的表达界面。

Nano Banana 2 的全面升级

此次,Banana 2 除了“实时联网”这个大升级外,还把文生图多年来的几个老痛点,集中补了一轮,功能全面升级。

比如在文本渲染和翻译这块,Banana2 解决了一个 AI 图像的关键短板:画面很好看,写字就翻车。

这次 Nano Banana 2 明显是下了狠功夫。生成的文字清晰、拼写准确、排版自然,已经可以直接拿去做营销海报、邀请函、贺卡,甚至产品宣传图,不用再手动修字。

它还支持图中内容的翻译和本地化。你可以直接把一张图里的文字改成另一种语言,而画面风格、排版结构依然保持一致。这对做全球化传播的人来说,实用价值很高。

看官网案例中,无论是香水广告中的品牌标识,还是橱窗上的英文招牌,人身上的纹身,都几乎看不出明显 AI 痕迹。它不是“图里带点字”,而是“图文一体生成”。

另一个大升级是主体一致性大幅提升。在一个工作流里,最多可以保持:

  • 5 个角色的特征一致
  • 14 个对象的高保真度稳定输出

这意味着,比如你在做漫画、品牌角色设定、系列海报,人物的脸不会一张一个样,服装不会莫名变化,场景里的物件不会反复“变形”。

看官方案例中不同动物角色,无论动作、神态如何变化,都能保持一致。

即使转换视角,也依然保持稳定。

更有意思的是,它还可以自由换纹理、换材质,大胆“变色”。

比如一只“香蕉恐龙”。

松鼠饼干

水母跑车、拉面跑车。

做游戏页面时,也能快速切换不同视觉风格。

Nano Banana 2 这次还在分辨率和画幅上下了功夫。

从 512px 到 4K,多分辨率可选。值得注意的是,这次新增了 512px 档位,专门针对低延迟和高负载场景优化。如果你需要批量快速生成、反复迭代草图,这个分辨率就是效率档

画幅比例也更丰富,除了常规比例,还新增了 4:1、1:4、8:1、1:8...... 横幅广告、超长信息流卡片、竖屏长图,都可以原生生成,不需要再后期裁切。

可以生成超长画面。

Nano Banana 2 不再只是“创意玩具”,而更像一个可控的图像渲染引擎。对普通用户来说是更好用;对企业来说,是更可规模化。

而且在视觉效果上,画面质量也全面升级,趋向可用级别。

  • 光影更自然
  • 材质更丰富
  • 细节更锐利

目前,它已经在 Google 产品体系里完成替换。

  • Gemini 默认出图能力更新
  • AI Mode 和 Lens 覆盖 141 个新增国家和地区
  • 支持额外 8 种语言
  • 在 Google Ads 中成为广告生成建议能力

不过也有网友表示,使用完体验一般,要求换回 Pro 或一代版本。

感兴趣的读者,可以速速体验一下。

参考链接

https://gemini.google/tw/overview/image-generation/?hl=zh-TW

https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/