谷歌发布并开源 Gemma 4 12B 版多模态模型 可在 16GB 内存 / 显存上运行
2 小时前

谷歌近日发布并开源了Gemma 4 12B版多模态模型,该模型专为消费级设备设计,旨在实现AI模型的本地化运行。它能在配备16GB内存或显存的笔记本电脑和台式机上流畅运行,尽管参数规模为12B,但其智能化水平可与Gemma 26B版模型相媲美。Gemma 4 12B版模型具有多项显著优势:采用全新统一架构,无需多模态编码器,即可直接处理文本、图片、视频和音频输入;具备高级推理功能,基准性能接近Gemma 26B版混合专家架构模型,可实现本地多步骤推理;内存要求较低,16GB内存或显存即可满足运行需求,且内存越大性能越佳。此外,该模型采用Apache 2.0许可证开源发布,谷歌和社区共同为开发者提供完善的生态系统支持。模型还配备了多种Token预测选型器,有效减少延迟。在视觉处理方面,Gemma 4 12B版使用轻量级嵌入模块替代视觉编码器,仅包含一次矩阵乘法、位置嵌入和归一化操作,使模型主干网络可直接处理视觉信息。音频处理方面,则完全移除了音频编码器,将原始音频信号投射到与文本标记相同的维度空间。目前,该模型已在多个平台上线,开发者可在Ollama等平台直接体验,或前往HuggingFace、Kaggle下载模型权重文件,还可使用Unsloth进行高效微调,定制专属版本。