APP下载

关于ZAKER

合作

钛媒体 4小时前

昨晚，谷歌悄悄发了“新模型”，为多模态智能应用铺平了道路

文 | 霞光 AI 实验室，作者｜渡川

就在昨晚，谷歌发了首个原生多模态嵌入模型 Gemini Embedding 2。

跟以往的纯文本基础模型不同，Gemini Embedding 2 的核心突破在于将文本、图像、视频、音频和 PDF 文档等五种模态，全部映射到同一个向量空间里。

在这种情况下，模型可原生支持混合模态输入，例如同时传入图片 + 文字、视频 + 音频等复杂组合，而且系统也能够理解不同媒体之间的语义关联。这意味着，你用一段文字去搜索相关的图片，或者用一张图片找到含义相似的音频片段，都可以实现。

但这种嵌入模型并不是面向普通大众使用的，而是面向 AI 应用开发者、算法工程师以及拥有海量非结构化数据的企业，帮助他们大幅简化了复杂的多模态数据处理流程，提升检索增强生成（RAG）、语义搜索等多模态下游任务的表现，这也将为多模态智能应用铺平了道路。

通常大家说的大模型（LLM / 基础大模型），指的是能理解、推理、生成长文本的底座模型，表现出来是能够与人对话、思考、创作、写代码；而 Embedding 模型属于向量表征模型，它只做一件事——把文本 / 图像 / 音频转成向量（一串让机器读懂的数字），而不生成内容、不推理、不对话。

以前的机器在搜索 / 检索时有个问题：文本有文本的 Embedding 模型，图片有图片的 Embedding 模型，音频有音频的 Embedding 模型，它们各自生成的向量是互相隔离的。

而谷歌发布的 Gemini Embedding 2 是一款 " 多模态翻译官 "，它让不同类型的数据（文字、图片、声音）能够用同一种语言交流，为企业构建下一代多模态搜索引擎和推荐系统提供了强大的基础工具。

这款产品的核心在于统一和理解。主要特点包括：

总体来说，Gemini Embedding 2 为机器创造了统一的 " 感官 "，为下一个高级人工智能体验时代提供了必要的多模态基础。

Gemini Embedding 2 最核心的受益群体，正是 AI 应用开发者和算法工程师，它会极大简化他们过去复杂的工作流程。

以前，如果 AI 应用开发者要做一个能同时搜索图片和文字的应用，需要维护图像模型和文本模型两套嵌入系统，还得写大量代码对齐结果，而现在一个模型、一个向量索引就能搞定；特别是对于需要处理音频和视频的开发者，以前需要先做语音转文字、视频抽帧等预处理，现在可以直接输入原始音视频，减少了信息丢失，也降低了开发维护成本。

此外，对于很多大型企业（如媒体、医疗、金融）来说，它们的数据资产中绝大部分都是非结构化的图片、扫描件、录音和视频。过去，这些数据只能在数据库里沉睡，而 Gemini Embedding 2 可以让这些数据真正变得可搜索、可利用——比如媒体可以建立一个跨格式的资料库，编辑直接用文字描述（如 " 夕阳下的海滩，带有轻松的背景音乐 "）就可以搜索出符合条件的视频素材，无需依赖人工打标签。

此外，随着大模型应用加快，让模型获取最新的、多模态的知识变得至关重要。RAG 是目前的主流方案，而 Gemini Embedding 2 将 RAG 从 " 文本检索 " 升级到了 " 多模态检索 "。有了 Gemini Embedding 2 的加持，当用户提问时，系统不仅能检索相关文字，还能找出相关的图表、视频片段作为上下文提供给大模型，从而生成图文并茂、信息量更大的回复。

Gemini Embedding 2 的发布，其意义超越了模型本身。谷歌表示，该模型在多项文本、图像和视频任务的基准测试中超越了当前的主流竞品，为多模态嵌入领域设立了新的性能标准。

此外，它还让一系列过去难以实现的场景变得触手可及。例如，在法律领域，它可以从数百万条记录中，快速检索出包含特定图片、音频片段的证据文件；在推荐系统中，它可以基于用户的浏览历史，混合推荐相关的文章、视频和播客，体验更自然流畅。

总结来看，Gemini Embedding 2 让机器不仅能生成内容，更能从底层去理解这个由多元信息构成的世界，让 AI 开启 " 全感知 " 应用时代。

2026 年，被认为是大模型的 " 多模态 " 之年。今年前两个月，国内的快手、字节跳动、阿里巴巴等科技巨头密集发布新一代多模态模型，标志着 AI 视频生成正从 " 盲盒式娱乐 " 向 " 精准工业化生产 " 跨越。尤其 Seedance2.0 的发布，在全球引发关注，其最大亮点在于通过 "@素材名 " 的全新交互范式，让用户能够指定每个图片、视频、音频的用途，且画面的物理规律更合理、动作表现更自然流畅。

如今，全球大模型已从单一文本能力的深耕，转向多模态原生融合的深耕。不同于以往 " 文本 + 图像 " 的简单拼接，2026 年的多模态大模型普遍采用统一表示空间架构，能够原生协同处理文本、图像、音频、视频，真正实现跨模态的理解、生成与交互。

Gemini Embedding 2 代表的底层基础设施的革新，则它让机器 " 读懂 " 世界的方式变得统一和高效。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

企业资讯

查看更多内容

Blockchain News

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

昨晚，谷歌悄悄发了“新模型”，为多模态智能应用铺平了道路

宙世代

一起剪

相关阅读

“小米车险”来啦？法巴天星保险回应

黄仁勋：OpenClaw是历史性发布之一 英伟达内部已使用

苹果决定放弃 为什么小折叠手机不吃香了？

阿里 AI 战略再分析：探路与修路同步，滚动前进，融入世界

Intel最强游戏CPU发布：七彩虹主板第一时间适配！带来背插3.0新品

OpenClaw爆火，Computer Use Agent爆发

Nebius股价走势图显示出强劲上行动能，英伟达将助其一臂之力

看看你用上没！微信官方推出三大新功能：语音/视频终于能忽略

内存、SSD价格上天：三星利润大涨5倍 只有PC、手机天塌了

香港：已关注到OpenClaw的潜在风险，建议相关单位采取充足安全措施

狂卖2000万！年轻人把“国产鸟”买成“新工服”

创维发布第十代壁纸电视A10H，主打超薄机身与画质再升级

4次改变世界，手握12000件专利！为爱迪生、乔布斯“兜底”的隐形巨头，有多牛？

Xbox入钻

“黑色黄金”来了，中国研发！

最新评论

钛媒体

热门推荐

企业资讯

黄仁勋：OpenClaw是历史性发布之一英伟达内部已使用

苹果决定放弃为什么小折叠手机不吃香了？

内存、SSD价格上天：三星利润大涨5倍只有PC、手机天塌了