Gemini Embedding 2：五大模态统归一境，跨模态 Agent 的最强“大脑”！

news2026/3/19 8:10:43

本文内容来源于谷歌官方由谷歌云钻石合作伙伴、谷歌地图一级代理商 CloudAce 深圳云一进行翻译发布。导语Google 正式发布了基于 Gemini 架构构建的首款全多模态嵌入模型Gemini Embedding 2的公开预览版。该模型打破了传统文本嵌入的局限实现了文本、图像、视频、音频及文档在单一、统一嵌入空间中的深度映射。目前开发者已可通过 Gemini API 和 Vertex AI 平台进行接入体验。核心突破全模态语义统一空间在以往仅支持文本的嵌入模型基础上Gemini Embedding 2 实现了重大飞跃它将文本、图像、视频、音频和文档统一映射到一个共享的嵌入空间中并能够捕捉超过 100 种语言的语义意图。这一突破简化了复杂的技术管线显著增强了多种多模态下游任务的表现包括检索增强生成、语义搜索、情感分析、数据聚类。1. 多样化模态支持该模型利用 Gemini 顶尖的多模态理解力支持高质量的跨模态嵌入文本 (Text)支持高达 8,192 个输入 Token 的长上下文。图像 (Images)单次请求可处理多达 6 张图像支持 PNG 和 JPEG 格式。视频 (Videos)支持输入长达 120 秒的 MP4 和 MOV 格式视频。。音频 (Audio)原生摄取音频数据无需中间文本转录保留更丰富的语义细节。文档 (Documents)可直接嵌入最多 6 页的 PDF 文件。2. 交错输入 (Interleaved Input)模型原生支持交错输入模式允许在单个请求中同时传入多种模态如“图像文本” 。这使得 AI 能够捕捉不同媒体类型之间复杂且微妙的关系从而更准确地理解现实世界的数据逻辑。交错输入技术底座灵活性与性能的完美平衡1. 灵活的输出维度与谷歌之前的嵌入模型一样Gemini Embedding 2 也采用了 Matryoshka 表示学习 (MRL) 技术该技术通过动态缩减维度来“嵌套”信息。Gemini Embedding 2 默认具备3072维度支持灵活缩放到1536、768甚至更低维允许开发者根据存储/性能需求自由裁剪质量衰减很小这完美平衡了企业级大规模部署的需求。2. 业界领先的基准表现Gemini Embedding 2 不仅仅是对传统模型的改进它还为多模态深度建模树立了新的性能标杆引入了强大的语音处理能力并在文本、图像和视频任务中超越了领先的模型。这种可衡量的性能提升和独特的多模态覆盖范围能够精准满足开发者多样化的嵌入需求。图为 Gemini Embedding 2 性能测试分数商业价值解锁数据深度含义嵌入技术是驱动众多 Google 产品体验的核心。从嵌入技术在上下文工程Context Engineering中发挥关键作用的 RAG到大规模数据管理以及经典的搜索与分析部分早期访问合作伙伴已经开始利用 Gemini Embedding 2 解锁高价值的多模态应用“Gemini Embedding 2是 Sparkonomy‘创作者经济平等引擎’的技术基石。其原生的多模态能力通过免去 LLM 推理环节将我们的延迟大幅降低了多达 70%并使‘文本-图像’与‘文本-视频’配对的语义相似度得分几乎翻了一番——从 0.4 惊人地跃升至 0.8 。这为我们专有的‘创作者基因组Creator Genome’提供了核心动力使其能够以前所未有的精度对数百万分钟的视频、图像及文本进行索引。这不仅开启了公正无偏的品牌合作新模式更让每一位创作者都能平等地享有经济成功的机会。” ——Guneet SinghSparkonomy 联合创始人立即构建Gemini Embedding 2 现已深度集成至 Google Cloud 生态系统并支持LangChain、LlamaIndex、Weaviate以及Vertex AI 向量搜索 (Vector Search)等主流开发框架。根据谷歌官方发布开发者可用如下方式就能通过 Gemini API 或 Vertex AI 开始使用 Gemini Embedding 2 模型from google import genai from google.genai import types # For Vertex AI: # PROJECT_IDadd_here # client genai.Client(vertexaiTrue, projectPROJECT_ID, locationus-central1) client genai.Client() with open(example.png, rb) as f: image_bytes f.read() with open(sample.mp3, rb) as f: audio_bytes f.read() # Embed text, image, and audio result client.models.embed_content( modelgemini-embedding-2-preview, contents[ What is the meaning of life?, types.Part.from_bytes( dataimage_bytes, mime_typeimage/png, ), types.Part.from_bytes( dataaudio_bytes, mime_typeaudio/mpeg, ), ], ) print(result.embeddings)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2425732.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！