RAG搜索

超能网 >>
搜索

搜索结果

谷歌发布Gemini Embedding 2模型，支持多模态交错输入

易铭恩发布于2026-03-11 10:07 / 关键字：谷歌, AI, Gemini, RAG, 嵌入模型

日前，谷歌正式发布 Gemini Embedding 2 模型并开启公开预览，这是谷歌首款基于 Gemini 架构打造的原生多模态嵌入模型。该模型实现了文本、图像、视频、音频与文档的统一嵌入处理，简化了复杂的处理流程，可以增强RAG、语义搜索等应用的能力。
在多模态处理能力上，Gemini Embedding 2 有着明确的规格支持：文本输入上下文可达 8192 个token，单次请求可处理 6 张 PNG/JPEG 图片，还支持120 秒 MP4/MOV 视频输入，能原生处理音频数据无需转录，还可直接嵌入 6 页以内的 PDF 文档。

此外，模型支持多模态交错输入，比如图片和文本一起输入，因此它可精准捕捉不同媒体间的复杂关联，贴合真实世界的复杂数据场景。
模型还融入套娃表征学习（Matryoshka Representation Learning，MRL），输出维度可从默认 3072 动态缩放，开发者可根据需求平衡性能与存储成本，谷歌推荐 3072、1536、768 维度以保障处理质量。
在性能上，该模型树立了多模态嵌入新标杆，语音处理能力突出，在文本、图像、视频相关任务中表现优于同类主流模型。
谷歌表示，目前已有 Everlaw、Sparkonomy 等企业成为早期合作伙伴，利用 Gemini Embedding 2 在法律检索、创作者经济等领域实现了效率升级。开发者可通过 Gemini API 和 Vertex AI 访问该模型，谷歌也提供了代码示例和交互笔记，助力开发者快速开展多模态 AI 应用构建。

分享
| 收藏 | 评论