• 谷歌发布Gemini Embedding 2模型,支持多模态交错输入

    易铭恩 发布于2026-03-11 10:07 / 关键字: 谷歌, AI, Gemini, RAG, 嵌入模型

    日前,谷歌正式发布 Gemini Embedding 2 模型并开启公开预览,这是谷歌首款基于 Gemini 架构打造的原生多模态嵌入模型。该模型实现了文本、图像、视频、音频与文档的统一嵌入处理,简化了复杂的处理流程,可以增强RAG、语义搜索等应用的能力。

    在多模态处理能力上,Gemini Embedding 2 有着明确的规格支持:文本输入上下文可达 8192 个token,单次请求可处理 6 张 PNG/JPEG 图片,还支持120 秒 MP4/MOV 视频输入,能原生处理音频数据无需转录,还可直接嵌入 6 页以内的 PDF 文档。

      展开阅读 

    分享
    | 收藏 | 评论