文 | 字母 AI
不到一个礼拜,接连两位重量级员工都离开了谷歌。
前有 Google DeepMind 工程副总裁诺姆 · 沙泽尔(Noam Shazeer),后有 AlphaFold 核心负责人约翰 · 江珀(John Jumper)。
讲真的,我很难不怀疑谷歌现在 " 出 BUG" 了。
从 Gemini 3 问世,到现在都过去大半年了,谷歌还是只有差别不大的 Gemini 3.1。你再看看 Anthropic 这边,半年前还只是 Opus 4.5,现在 Fable 5 都停用一个多礼拜了。
不只是模型掉队,产品也跟着掉队。如今几乎所有的 AI 公司都在发力 AI Agent,OpenAI 有 Codex,Anthropic 有 Claude Code。
Fable 5 加持下的 Claude Code,现在都能自主修 bug,自动循环跑测试直到全绿,还能从设计稿直接生成生产代码,最后封装成完整的软件。
而谷歌这边,只有一个拿不出手的 Antigravity 2.0,不仅效果糟糕,使用体验也一言难尽,网上对这个产品只有一片骂声。
说到这里就不得不提一件事,伯克希尔从 2025 年就开始建仓谷歌,到了 2026 年第一季度,伯克希尔把谷歌的持仓又加了 224%。
2026 年 6 月 1 日,伯克希尔以定向增发的方式向谷歌母公司 Alphabet 再投了 100 亿美元。
难道这回巴菲特真的看走眼了?
谷歌的全栈优势怎么没了?
2025 年 11 月 18 日,谷歌发布了 Gemini 3。皮查伊亲自出来站台,说这是谷歌 " 最智能的模型 ",拥有全球最顶尖的推理能力,多模态理解,还有代码生成能力。
于是在同一天,谷歌还放出了另外两样东西:一个是 Google Antigravity,号称 "agent-first" 的开发平台;一个是 Nano Banana Pro,它是谷歌此前爆火的文生图模型 Nano Banana 的威力加强版。
当时的谷歌有多吓人?这么说吧,在谷歌这场产品发布会结束后两个礼拜,奥特曼向 OpenAI 内部发出 "Code Red(红色警报)" 备忘录,称 ChatGPT 的产品体验与质量优势正在被谷歌快速追近,因此全公司暂停所有其他业务,集结全员投入到 ChatGPT 当中。
奥特曼担心的不只是这三个产品,而是谷歌的全栈优势。
在硬件上,谷歌有自研的 TPU 芯片。谷歌从 2015 年就开始做 TPU,到今天已经到了第七代 Ironwood,一颗芯片顶过去四颗的算力,液冷散热,一个 pod 塞进去 9216 颗芯片,提供 42.5 ExaFlops 的算力。
和英伟达那种通用的 GPU 不同,TPU 是专门为 AI 推理任务进行过优化的,成本低,而且性能更好。
再往上一层是 DeepMind。
2023 年 4 月,谷歌把 Google Brain 和 DeepMind 合并成了一个单位。此前,这两家虽然是同一家公司,但长期以来是两套体系、两套文化,Brain 偏产品和商业化,DeepMind 偏长期研究。
合并之后,哈萨比斯统一带队,杰夫 · 迪恩(Jeff Dean)退居首席科学家。也就是说,谷歌的 " 左右脑 " 合一了。
继续往上,还有一层很多人容易忽略的东西:入口。谷歌不是只有模型,它有 Chrome、Android、YouTube、Google Maps、Gmail、Google Workspace、Google Search。
这些东西加起来,日活几十亿。全世界没有任何一家 AI 公司拥有这个量级的用户。它能通过入口去铺产品,再用这些成熟的产品拿到用户反馈,加快整个产品的开发迭代。
比如用户在哪一步退出了,哪种能力被反复调用,哪些生成结果被用户改掉了或者直接放弃了,哪些功能形成了留存,哪些场景出现大量报错和投诉。

这个产品虽然体量非常小,但是它其实是通过谷歌的全栈,拥有自己一个完整飞轮。
Nano Banana 刚刚在 LM Arena 一类的盲测环境里走红后,谷歌做的第一件事就是把它立刻上线到 Gemini App、AI Studio、Gemini API 当中,甚至连专门面向企业的 Vertex AI 也没放过。
用户不仅能通过各种产品感受 Nano Banana,谷歌还能用这些产品收集反馈,这也就是为什么 Nano Banana 产品迭代速度那么快,碾压 GPT-4o 的作图能力。
那为什么到现在,谷歌的全栈优势没了呢?
文生图是一个低风险、短链路、结果立刻可见的产品。
用户输入一句话,几十秒后得到一张图,不满意就重来,满意就分享。它不需要长期记忆,也不需要调用工具权限,更不需要为一次错误承担现实后果。
但是 Agent 不一样。它不是 " 给用户一个结果 ",它是要彻底驻扎进用户的工作环境,持续读取上下文、调用工具、执行操作,并对最后的结果负责。
Nano Banana 的成功并不能完全复刻到 Agent 了。
当产品需要跨模型、权限、执行环境、企业系统和长期责任时,谷歌那套原本强大的全栈能力,开始显露出协调不起来的问题。
谷歌真正的病是组织架构太混乱
如果你去翻谷歌的开发者产品线,你会发现一个很诡异的现象。谷歌同时有好几个工具,都在帮你用 AI 写代码,产品功能几乎都重叠了。
Gemini CLI,一个命令行工具,可以查代码库、生成应用、自动执行复杂流程,2025 年底随 Gemini 3 一起推出。到了 2026 年 6 月,谷歌发了个公告:Gemini CLI 即将被 Antigravity CLI 取代。
Jules,一个异步编码 Agent,Google Labs 出品,定位是自动帮你修 bug、写测试、提 Pull Request。它不需要你盯着看,你把任务扔给它,它自己克隆仓库、写代码、开 PR,干完了通知你。
Code Assist,Google Cloud 旗下的企业级编程助手,装在 VS Code 和 JetBrains 里用,收费 22.8 到 54 美元一个用户一个月。Firebase Studio,浏览器里的全栈开发工作台,内置了 Gemini,也能帮你生成代码。
然后是永远扶不上墙的 Antigravity,前文也提到了,2026 年 5 月 I/O 大会上又发了个 2.0 版本,分了桌面 App、CLI、SDK、Managed Agents、企业层五块。
它们都在做同一件,但它们是不同团队做的,有不同的品牌名,有不同的入口,有不同的收费模式,甚至有的在互相替代。
这种情况根本就不叫产品线丰富,这叫浪费算力。
这件事的根源其实是在组织架构层面。
谷歌的 AI Agent 相关能力,被拆分在至少几个互不统属的组织手里。每个组织有自己的 KPI,独立的汇报线。
比如 Google DeepMind,它管的是模型在 benchmark 上的分数能不能压过 GPT 和 Claude。DeepMind 的成功是 " 我们做出了最强的模型 "。
它根本不关心用户在 Antigravity 里完成一个真实项目的成功率是多少。
到了 Google Labs 部门,它只管这个东西酷不酷,能不能在社交媒体上引发讨论。
Google Labs 的产品有 CC(Gmail 里的 AI 助理)、Project Genie(无限世界生成)、Pomelli(AI 营销工具)、Opal(自然语言做小应用),以及 Jules。
实验跑完了,热度过去了,团队可能去做下一个实验了,它不会对产品进行长期维护。
Google Cloud 和 Vertex AI 管的是模型能不能通过 API 调用,企业能不能采购,权限和合规有没有覆盖,Agent 能不能部署到生产环境。
Antigravity 更惨,它是从 Google DeepMind 里面走出来的,现在归 Google Labs 维护。但是又必须接入 Google Cloud 的权限、部署和合规体系。
所以谁也不会对它负责,就这么摆烂。
你可能会问了,那到皮查伊这关可怎么办?
DeepMind 说,我们的模型又刷榜了。Labs 说,Jules 在社交网络上又有 10 万转发了。然后 Google Cloud 那边说,Agent Engine 又签了多少个企业客户。Gemini App 说,这个月的 DAU 稳住了。Search 说,AI Overviews 用户破 20 亿。
大家的饭碗都保住了,却最后留给 Antigravity 一地鸡毛。
但没有人能回答一个最简单的问题:一个开发者,今天应该用谷歌的哪一个工具来完成他的工作?如果他现在用的是 Codex 或者 Claude Code,谷歌准备用哪个产品把他抢过来?
评测赢了,不等于任务真的交付了
谷歌现在所有的叙事都只围绕着评分,但现在大家早就不迷信 benchmark 了,能交付任务的才是好模型。
模型在 benchmark 上分数高,比如它推理题能答对,代码能生成,图像能看懂,多轮对话能保持连贯。
这些测试通常是在受控环境下进行的。单轮或有限轮次,输入输出干净,不需要操作外部工具,不需要管理权限,不需要长时间持续运行。
失败了的表现是什么?答案不对。最坏的结果,就是重来一遍。
但是到了任务交付这块,模型的价值变了。
用户把一个真实的工作扔给 AI,到最后拿到了一个能用的结果,中间的链条其实是非常长的。
什么叫 " 真实的工作 "?是 " 这个项目的支付模块有个 bug,请定位、修复、测试、提交 PR"。它涉及多个步骤,可能要花几十分钟甚至几个小时,中间需要调用 Git、终端、浏览器、文件系统、API,每一步都有失败的可能。
失败了的表现是什么?不是答案不对,而是代码改坏了、权限控不住了、流程卡死了、环境崩了、用户不知道从哪里恢复。
我举个例子。
假设一个模型在单步判断上的正确率已经有 95%,看起来很强;但一个真实开发任务若需要连续完成 20 个关键步骤,全部不出错的概率只有 0.95^20,约等于 36%。
哪怕单步正确率提升到 98%,20 步全程顺利完成的概率也只有约 67%。
所以 Agent 产品真正的护城河,不是把 benchmark 再刷高两分,而是给错误恢复、状态保存、权限确认、人工接管、回滚和结果验证做出可靠机制。
但是 Antigravity 都 2.0 了,还是没有类似且完整的机制。
你去读 Gemini 3 的官方博文,皮查伊亲自写的开头,后面跟着的全是 benchmark 对比表。
但是你现在如果去看 OpenAI 和 Anthropic 关于新模型的官方博文,里面全都是各种客户对模型的评价。
不是说 benchmark 没用。benchmark 当然有用,它是一个尺子。但如果一个 Agent 产品的全部叙事都围绕 benchmark 展开,那就说明这个模型确实干不了活。
谷歌不可能放弃 AI Agent,因为这个板块真的太赚钱了,不信你看看友商们就懂了。
2026 年 2 月,OpenAI 的 Codex,独立桌面 App 上线后首周下载量超过 100 万。仅仅过了两个月,Codex 周活用户就达到了 400 万
Claude Code 就更不用说了,Anthropic 在 2 月份的融资材料中就暗示,该产品的年化收入已经突破了 20 亿美元。
Antigravity 2.0 发了一个多月了,现在打开它的官网,你会发现还是没有企业版的定价。
Claude Code 可以通过 Claude Team 按人头付费,Codex 可以走 GPT Business 或者 ChatGPT Enterprise,同样是按人头收费。
到了谷歌这里,企业要是想用 Antigravity 2.0,你只能走 Gemini Enterprise Agent,它会赠送你一些额度让你拿手上玩玩,并不能像 OpenAI 和 Anthropic 那样,把它变成一个收费的产品。
所以我猜沙泽尔和江珀离开谷歌,大概也是因为对这家公司失望了。