Gemini Embedding 2上线,统一图文音视频向量空间
谷歌正式推出基于Gemini架构构建的首个原生多模态嵌入模型Gemini Embedding 2。该模型目前已通过Gemini API和Vertex AI开启公开预览。
与以往纯文本基础模型不同,Gemini Embedding 2的核心突破在于将文本、图像、视频、音频和文档全部映射到同一个统一的向量空间中,并能跨越100多种语言捕捉语义意图。这一特性大幅简化了复杂的处理流程,直接提升了检索增强生成(RAG)、语义搜索、情感分析以及数据聚类等多模态下游任务的表现。
五大模态全面打通,支持交错输入
基于Gemini的多模态理解能力,新模型在各项输入标准上给出了明确的性能指标:
-
• 文本:支持高达8192个输入Token的超长上下文。 -
• 图像:单次请求最多可处理6张图像,支持PNG和JPEG格式。 -
• 视频:支持输入长达120秒的视频片段,兼容MP4和MOV格式。 -
• 音频:实现原生音频数据摄取与嵌入,完全不需要中间的文本转录步骤。 -
• 文档:支持直接嵌入最多6页的PDF文件。
除了单模态处理,该模型原生支持交错输入。开发者可以在单次请求中同时传入多种模态数据(例如图像加文本),模型能够精准捕捉不同媒体类型之间复杂且细微的关联,从而对真实的复杂数据实现更准确的理解。
引入套娃表示学习,灵活调整输出维度
在底层技术上,Gemini Embedding 2延续了谷歌此前嵌入模型采用的套娃表示学习(MRL)技术。该技术通过动态缩小维度来实现信息的嵌套存储。
这种设计赋予了模型灵活的输出维度能力。开发者可以从默认的3072维向下缩放,以在模型性能和存储成本之间寻找最佳平衡点。为保证最高质量的输出,官方推荐使用3072、1536或768这三个维度。
设立多模态性能新基准
在性能表现上,Gemini Embedding 2在文本、图像和视频任务中均超越了现有的领先模型。同时,该模型引入了强大的语音处理能力,为多模态深度确立了新的性能标准,为开发者处理多样化的嵌入需求提供了直接支持。

目前,嵌入技术不仅是众多谷歌产品体验的底层驱动力,在RAG上下文工程、大规模数据管理和经典搜索分析等场景中也发挥着核心作用。部分早期访问合作伙伴已开始利用Gemini Embedding 2开发高价值的多模态应用。
开发与生态支持
开发者现可通过Gemini API或Vertex AI快速接入该模型。官方提供了基于Python的SDK(google.genai)调用方案,只需少量代码即可在单次请求中同时完成文本、图片和音频的嵌入处理:
from google import genai
from google.genai import types
# For Vertex AI:
# PROJECT_ID='<add_here>'
# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')
client = genai.Client()
with open("example.png", "rb") as f:
image_bytes = f.read()
with open("sample.mp3", "rb") as f:
audio_bytes = f.read()
# Embed text, image, and audio
result = client.models.embed_content(
model="gemini-embedding-2-preview",
contents=[
"What is the meaning of life?",
types.Part.from_bytes(
data=image_bytes,
mime_type="image/png",
),
types.Part.from_bytes(
data=audio_bytes,
mime_type="audio/mpeg",
),
],
)
print(result.embeddings)
调用逻辑示例:使用客户端直接调用 gemini-embedding-2-preview 模型,在 contents 列表中依次传入文本字符串,以及转换为字节流格式的图像和音频文件,即可直接输出包含多模态信息的向量结果。
在生态兼容性方面,除了官方的交互式Colab笔记本,Gemini Embedding 2已全面支持 LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB 以及 Vector Search 等主流开发框架和向量数据库。
–end–


