2026年3月10日,谷歌DeepMind发布首款原生多模态嵌入模型Gemini Embedding 2,该模型支持文本、图像、视频、音频及文档统一映射至单一嵌入空间,实现跨模态语义理解,并覆盖100种语言。相比前代,其文本上下文达8192 tokens,图像单次最多6张,视频最长120秒,音频无需转录,PDF限6页。模型已通过Gemini API和Vertex AI开放预览,适用于RAG、语义搜索、情感分析等场景。