关于ZAKER Skills 合作
钛媒体 2小时前

谷歌最新发布会:没发最强模型,开卷 Agent 全家桶

文 | AIX 财经,作者 | 雷晶,编辑 | 金玙璠

北京时间 5 月 20 日凌晨,2026 Google I/O 开幕。从 2008 年首次举办至今,这场大会已成为谷歌每年 " 秀肌肉 " 的主要舞台。

而它之所以值得行业关注,在于它作为科技巨头的技术秀场,能一定程度上反映行业未来的走向。

回到本届大会,近两个小时走完全部议程,发布节奏极密,几乎不留间隙。

谷歌 CEO 桑达尔 · 皮查伊在开场抛出一个数字:3200 万亿 Token。这是谷歌全平台每月的 AI 处理量,两年前这个数字是 9.7 万亿,去年是 480 万亿,一年翻了近七倍。这个数字说明,谷歌的 AI 产品在被大规模使用。

先来拉一张清单,看看这场发布会到底讲了什么:

模型:Gemini 3.5 输出速度为同类产品的四倍、成本不到一半,成为 Gemini App 和搜索的默认引擎;Gemini Omni 支持图文音视频混合输入,生成可编辑视频,支持指定镜头和拍摄角度,通过 Gemini App 和 Google Flow 使用。Gemini 3.5 Pro 预计 6 月发布,目前处于内测阶段。

搜索与购物:搜索框迎来 25 年来最大改版,支持多模态输入,可输入文本、图片、视频、文件;Universal Cart 打通搜索、YouTube、Gmail 的 AI 购物车,Nike、Walmart 等首批接入。

智能体:Gemini Spark 作为 24 小时个人 Agent,云端运行;Antigravity 2.0 升级为多 Agent 编排平台,全面摆脱 coding 场景局限,和 Claude Code 以及 Codex 直接竞争。

硬件:Android XR 音频眼镜今秋上市,由三星制造,兼容 iOS,联合眼镜品牌 Gentle Monster 和 Warby Parker 共同设计;纯音频版本今年秋季率先推出,带显示屏的版本将于明年推出。

订阅:新增 100 美元 / 月 Ultra plan;原 250 美元 / 月的顶级 Ultra plan 降到 200 美元;Pro 维持 19.99 美元 / 月。

谷歌没有在参数竞赛上继续加码,而是把最多的时间给了 Agent。接下来,我们来详细看看这场大会释放了哪些信号。

01. 谷歌模型在讲什么故事

2026 Google I/O 大会的第一个重要信号,从芯片层开始。

谷歌提出第八代 TPU 的 " 双芯 " 战略,将训练与推理拆分为独立芯片。TPU 8t 专攻训练、TPU 8i 则聚焦推理。

TPU 8t 单个 Pod 可塞下 9600 颗芯片,集群总算力 121 ExaFLOPS,较 Ironwood 提升约 3 倍,性价比提升 2.7 倍。集群可扩展至百万级芯片,将大模型训练周期从数月压缩至数周。TPU 8i 则主打低延迟推理,它的推理性价比提升 80%,大缓存设计显著减少内存访问延迟,可满足 Gemini 3.5 Flash 等高并发推理需求。

谷歌大会上,介绍芯片性能

第八代 TPU 对应的是谷歌在 AI Agent 上的布局。训练、推理分离、供应链多元化、全栈软件优化,既强化了谷歌在算力的基础设施,也标志着全球 AI 芯片竞争进入更专业的阶段。

有了更强的基建,模型自然也不能掉队。大会上谷歌推出了 Gemini 3.5 Flash 和 Gemini Omni,虽然没有万众期待的 Gemini 4.0,但展示了谷歌的产品逻辑:不追求最强模型,更注重让不同模型服务于不同商业场景。

Gemini Omni 是谷歌今年推出的世界模型。它被定位为 " 能从任何输入生成任何输出 " 的多模态系统,以视频生成和编辑为切入点,将文本、图像、音频和视频统一在同一个创作流程中。

现场演示 Gemini Omni 创作的视频

它的亮点在于对物理世界规律的理解,这意味着能够准确预测场景中应该发生什么。用户用自然语言编辑视频时,角色一致性、物理逻辑、场景记忆都能保持连贯。

Omni Flash 将率先接入 Gemini App、Google Flow 和 YouTube Shorts,面向 AI Plus 及以上订阅用户开放。谷歌旗下的 Nano Banana 技术已生成超 500 亿张图像,Omni 的加入将创作能力从静态图像延伸至动态视频。

Gemini 3.5 Flash 速度提升,还更省钱了。它在几乎所有基准测试上都超越了三个月前的旗舰模型 Gemini 3.1 Pro。一个定位中端的模型能够全面碾压上一代旗舰产品,这在行业中并不多见。在输出速度上,Gemini 3.5 Flash 是其他前沿速度模型的 4 倍。

介绍 Gemini 3.5 Flash 性能

价格上,Gemini 3.5 Flash 的定价为每百万输入 token 1.5 美元、每百万输出 token 9 美元。横向对比,Claude Sonnet 4.6 的输入价格是 3 美元、输出是 15 美元,Gemini 3.5 Flash 的整体定价低了 40% 到 50%。性能追平甚至超越竞品旗舰,价格只要一半。

目前,Gemini App 月活已达 9 亿,每日请求量增长超 7 倍。

值得一提的是,大会上宣布 Gemini 3.5 Pro 继续走深度推理路线,预计 6 月发布。

在模型能力之外,谷歌还在推进 SynthID。它是 DeepMind 三年前推出的数字水印技术,已应用于超 1000 亿图片和视频。此次 I/O 大会上,谷歌宣布与 OpenAI、ElevenLabs 携手推动水印透明化标准,并向搜索和 Chrome 拓展内容凭证验证。这也回应了当下打击 AI 生成内容泛滥,难以监管的行业难题。

总结来看,TPU 8 的训练推理分离,解决的是算力成本结构问题。Gemini 3.5 Flash 的高性能低价格,解决的是智能体规模化部署的性价比问题。Omni 切入创作者经济,解决的是谷歌在内容生成市场的存在感问题。

这也解释了为什么谷歌敢把 3.5 Flash 做得又快又便宜。它要的不是模型本身的利润,而是以模型为入口,撬动整个智能体经济的生态。

02. 搜索里,长出智能体、购物车和操作系统

模型的迭代终究还是要落到产品。谷歌搜索是这次变化最大的产品,谷歌将其称为 "25 年来的最大升级 "。

过去搜索框的交互逻辑一直是输入关键词,输出网页链接。现在,输入端可以容纳更长、更口语化的查询,也更能理解你的搜索意图,输入端也不再局限于文字,图片、文件、视频、Chrome 标签页都可以直接 " 丢 " 进去。

谷歌大会上,演示 AI 搜索

AI Mode 已升级到 Gemini 3.5 Flash 驱动,面向全球所有用户上线,月活突破 10 亿。两者合并带来的体验是,问一个问题能得到 AI 概览,还可以直接在原页面上继续追问,上下文不丢失。

但真正改变搜索性质的,是输出端。

谷歌把 Antigravity2.0 背后的智能体编程能力注入搜索,推出了 Generative UI。Gemini 3.5 Flash 拿到你的问题后,会从零开始规划回答方案,输出交互式界面、图表等形式,更能满足个人化的需求。

这种能力还在往周期任务延伸。你用自然语言描述需求,搜索可以打造个性化的小型应用,接入实时天气、读取日历、了解饮食偏好,自动生成带链接的计划,生成出来的应用还可以分享给家人。Generative UI 今年夏天面向所有搜索用户免费开放,mini app 功能先对美国 AI Pro 和 Ultra 订阅用户开放。

大会透露,搜索 AI 概览(AI Overviews)月活超 25 亿,AI 模式(AI Mode)超 10 亿,自上线以来查询量每季度翻倍。

到这里,搜索已经从回答问题变成了执行任务。谷歌把这个逻辑推向的第一个商业场景是购物。

谷歌大会上,介绍购物功能

Universal Cart 是一个跨商家、跨平台的 AI 购物车,横跨搜索、Gemini App、YouTube 和 Gmail。它可以在后台自动追踪降价、分析历史价格、提醒补货。整个体系构建在 Google Wallet 之上,能识别你的支付方式权益和商家优惠。目前,Nike、Target、Walmart、Sephora 等大型零售商已接入首批结算功能。

AI 购物已接入结算功能的商家

购物车能跨平台运作,靠的是底层协议。Universal Commerce Protocol 是年初在 NRF 上发布的开放标准,让 AI 智能体代替用户完成跨平台购物和结算,亚马逊、Meta、微软、Salesforce 和 Stripe 均已采纳。

配套的 Agent Payments Protocol 解决的是支付的安全问题。AP2 让用户给智能体设定支付边界,指定品牌、商品类别、预算上限,同时通过加密的数字授权凭证在用户、商家、支付方三者之间建立可追溯的链条。

谷歌在购物领域的尝试已持续十余年,从 Google Shopping 到 Buy on Google,但没能形成闭环的电商交易链路。Universal Cart 的逻辑与此前不同,它不试图成为一个独立的电商平台,而是把自己嵌入用户购物决策的全链路中。

Workspace 这边的更新同样密集,它的逻辑是让语音成为新的交互入口。Gmail Live 可以用语音查询收件箱;Docs Live 能把你的口述直接组织成结构化文档,并在授权后从 Gmail、Drive 和 Chat 中抓取相关信息充实内容。

现场演示 AI 音乐创作成果

创作工具层面,Google Pics 基于 Nano Banana 模型,可以选定画面中的单个元素精确编辑,其余部分不受影响。Google Flow 和 Flow Music 则是面向视频和音乐创作的 AI 工具,前者已推出 Android 测试版。

把这些变化放在一起看,底层趋势是一样的。谷歌把旗下所有高频产品改造成让 AI 替用户执行任务的智能体。

03.Agent 全家桶,真能替人干活吗?

2026 Google I/O 真正想讲的故事是智能体。

Gemini Spark 被定义为 " 个人 AI 智能体 "。它可以全天候代替你执行任务,读邮件、查日程、写汇报、追进度、发提醒,即便你关掉窗口也不会停止。

谷歌推出 Gemini Spark,即个人 A 智能体

Spark 运行在 Google Cloud 的专属虚拟机上,由 Gemini 3.5 Flash 驱动,底层跑的是 Antigravity 的 Agent 调度框架。在首发阶段,Spark 接入 Gmail、Docs、Sheets 等应用,未来将扩展到超过 30 个合作伙伴。Spark 的入口不止 Gemini App 一个。今年夏天它将入驻 Chrome,在任何网页上都能直接让它替你做事。

演示 Gemini Spark 如何操作

Agent 还需要一个可见的界面层。Android Halo 嵌入 Android 17 状态栏的视觉指示器,以微妙的光圈动画显示 Agent 的实时工作状态。你不需要打开任何 App 就能知道 Spark 正在替你做什么。

配合 Spark 的发布,谷歌还调整了订阅价格:新增 100 美元 / 月的 Ultra 档位,给那些想用 Agent 服务又不需要顶配的用户;原来 250 美元 / 月的顶级 Ultra 降到 200 美元 / 月,Pro 则维持 19.99 美元 / 月。

但谷歌不止押注 C 端。Antigravity 2.0 是面向开发者的 Agent 基础设施,它从一个 IDE 内置的编码辅助工具,变为独立的应用。开发者可以同时部署多个并行子 Agent 处理不同任务,设置后台定时任务,用语音指挥 Agent,Agent 可以拆解复杂工作流并分配子任务。

谷歌大会上,介绍 Antigravity 2.0 性能

谷歌声称其在约 12 小时内可搭建一个能运行的操作系统核心框架,期间启动了 93 个子 Agent,处理了数十亿 Token,总计算成本不到 1000 美元。

展示 Antigravity 2.0 制作的游戏

大会还有一个值得关注的重点是 Android XR 智能眼镜,由三星和高通制造,外观设计来自 Gentle Monster 和 Warby Parker,可兼容 Android 和 iPhone。

谷歌大会上,智能眼镜也是一大亮点

谷歌想打造一整套 Agent 操作系统,开发层有多 Agent 编排框架,手机上有状态感知界面,脸上有语音和视觉输入端。

Agent 的悖论在于,它的价值取决于用户的信任,而信任取决于可靠性。所以谷歌选择让 Spark 在执行高风险操作前必须征求用户确认,详细的思考轨迹对用户可见,随时可以打断。

回看整场 I/O 大会,谷歌这次没有拿出一个让行业惊叹的新模型,但它做的事情更实际,也更有野心。Omni 负责感知,Spark 负责生成,Agent 负责 7 × 24 执行。

谷歌有 TPU 集群、全球数据中心、安卓生态、搜索入口、广告变现机器,它不需要单点第一,只要足够好、足够便宜、足够无处不在,就是它最大的竞争力。

不管怎么说,谷歌已经在全速前进了。

相关标签

相关阅读

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容