谷歌发布并开源 Gemma 4 12B 版多模态模型可在 16GB 内存 / 显存上运行

2026-06-04

谷歌近日发布并开源了Gemma 4 12B版多模态模型，该模型专为消费级设备设计，旨在实现AI模型的本地化运行。它能在配备16GB内存或显存的笔记本电脑和台式机上流畅运行，尽管参数规模为12B，但其智能化水平可与Gemma 26B版模型相媲美。Gemma 4 12B版模型具有多项显著优势：采用全新统一架构，无需多模态编码器，即可直接处理文本、图片、视频和音频输入；具备高级推理功能，基准性能接近Gemma 26B版混合专家架构模型，可实现本地多步骤推理；内存要求较低，16GB内存或显存即可满足运行需求，且内存越大性能越佳。此外，该模型采用Apache 2.0许可证开源发布，谷歌和社区共同为开发者提供完善的生态系统支持。模型还配备了多种Token预测选型器，有效减少延迟。在视觉处理方面，Gemma 4 12B版使用轻量级嵌入模块替代视觉编码器，仅包含一次矩阵乘法、位置嵌入和归一化操作，使模型主干网络可直接处理视觉信息。音频处理方面，则完全移除了音频编码器，将原始音频信号投射到与文本标记相同的维度空间。目前，该模型已在多个平台上线，开发者可在Ollama等平台直接体验，或前往HuggingFace、Kaggle下载模型权重文件，还可使用Unsloth进行高效微调，定制专属版本。

上一篇：中文在线：AI短剧成为第一大Token消耗场景

下一篇：阶跃 Step 3.7 Flash 位列 Artificial Analysis 输出速度榜主流第一

返回列表

热文阅读

2 天前

吓到奥特曼，暂停训练GPT-6？Hugging Face公开首个AI攻击全过程

2 天前

马斯克两个核心资产，正在同时遭遇市场拷问

2 天前

比亚迪AI团队首次曝光，哈工大机器人基因亮眼，大模型首发即SOTA

2 天前

柔性触觉感知企业获新一轮融资，预计2026年公司营收翻10倍｜硬氪首发