关于ZAKER 合作
钛媒体 6小时前

深度解析 2026 GTC:英伟达万亿订单背后的 AI 大爆发、Token 经济学与失衡供应链

文 | 硅谷 101

1 万亿美元,这是接下来 21 个月,英伟达 GPU 订单的收入预期。

刚过去的 GTC 大会,黄仁勋开始停止了讲芯片的故事。他开始瞄准更大的叙事:token 经济,而这将是更有野心且更持久的市场蛋糕。

本篇文章,我们将拆解英伟达的五层蛋糕生态体系。一万亿美元收入是怎么算出来的?基于 Groq 的 LPU 将给英伟达带来什么新的机会?还有黄仁勋在光通信上的提前布局与未来 Scale-across(跨区域扩展)的 AI 工厂机会。以及 OpenClaw 的里程碑后,英伟达押注的 token 经济学将会如何发展,给算力市场将带来如何的挑战呢?

推理拐点已至,多模态 +OpenClaw

2026 年的英伟达的 GTC 叙事建立在两个背景和事件:一是 AI 应用得到落地;二是 OpenClaw 的爆火带动了全球的 agent 生态。这让黄仁勋在 GTC 演讲中高呼,推理拐点已经到来。

新云(Neocloud)厂商 GMI Cloud 创始人 Alex Yeh 在跟我们对话中就透露,北美的需求暴增是来自多模态和编程,而 OpenClaw 带来的 token 需求则主要来自中国。

Alex 的观察和我们最近在硅谷与很多业内人士的探讨是相似的,因为北美用户,特别是有技术背景的开发者已经很适应用 Claude Cowork 去做一些 agent 任务。所以虽然 OpenClaw 是从硅谷火出圈的,但远没有到国内那么卷的程度。

所以,以上是目前 AI 发展现状的一个大背景。有了推理需求飙升和 OpenClaw 爆火这两个趋势,黄仁勋的整个演讲的叙事逻辑就完全和去年不同了:以前英伟达卖芯片给云厂商和 AI 公司,而如今,老黄要卖 token 给全世界每一家公司。

这也是我参加今年老黄 keynote 的最大感受,看看 PPT 上面的这些小心心,就知道黄仁勋的姿态是 we love everybody(我们拥抱所有人)。所以,今年 GTC 的最关键主题是 " 生态 ",而不是 " 芯片 "。

早在 GTC 开会的几天前,英伟达就放出了一篇名为 "AI 五层蛋糕 " 的文章来为大会造势,预示黄仁勋在今年大会上强调的是垂直整合能力和生态,而不是单芯片。

简单来说,黄仁勋给外界画了一个更大的饼。我们先来说黄仁勋在 GTC 演讲中提到的一万亿这个数字。

一万亿美元,过于保守还是极度乐观?

黄仁勋在去年的 GTC 上说,当前和下一代的 GPU 架构 Blackwell 和 Vera Rubin 的订单收入,从当时到 2026 年年底会达到 5000 亿美元。这次,他将这个预期直接上调了一倍,说截止现在,到 2027 年年底,预计光是 Blackwell 和 Vera Rubin 的订单收入,会直接到 1 万亿美元。

要注意,这个收入是不包括英伟达新发的 CPU 和基于 Groq 的 LPU 芯片等其他产品线的订单收入,而光是 GPU 架构的订单。他在媒体闭门会上专门特别澄清,原因是因为这样外界能直观的感受到英伟达的 GPU 上的业务增长。

而对于各大企业对算力的 CapEx(资本支出),我们的嘉宾认为是还将继续上涨,一边是推理需求会继续上涨,另一边的原因是随着前沿模型的竞争趋于白热化,训练这边的需求也不会降低。

图片来源:Business Insider

为什么黄仁勋今年不强调单芯片,连 Rubin 再下一代计算架构 Feynman 也只是略微提了一点?除了老黄要把英伟达的企业叙事拔高到 "AI factory" 以及要给所有人卖 token 之外,其实还因为产能跟不上,市面上还是疯狂缺卡。现在市面上大家根本买不到最先进的卡,就连两三年前发布的旧卡,H100、H200 用了几年甚至能超原价卖,同时软件生态和各种配置也都跟不上老黄的速度,所以他再强调单卡的性能提升,对市场来说根本没有意义。

所以看起来,光是 GPU 的售卖,这一万亿美元的收入规模并不算过度乐观,而是真有这样的需求量。但显然,黄仁勋是不满足这一万亿的,他布局的是全生态。当 token 成为大宗商品," 算力即收入 ",黄仁勋接下来的动作,是想把他定义中的 "AI 五层蛋糕 " 给全部打透,让英伟达持续成为 AI 产业线中,持续最赚钱的机器。

拆解五层蛋糕,同质化博弈与生态护城河

Chapter 3.1:五层蛋糕与 " 同质化 "

黄仁勋定义的 AI 五层蛋糕,从下到上,分别是能源层(这里是电力等基础供应),之后是芯片层(英伟达的核心业务:卡),再之上是基建层(包括云厂商及旗下的数据中心,再往细分就是土地、供电、冷却系统、建筑工程、网络通信等),前三层被统称为 AI 工厂(AI factories)。

再往上,模型层有 OpenAI、谷歌 Gemini 和 Anthropic 这样的顶尖模型,也有包括英伟达自研的一系列开源模型。而在应用层,则是英伟达针对不同的赛道研发技术,包括机器人、自动驾驶、工业制造、编程和企业级 AI Agent 等等。

你是不是有点疑惑,老黄是在布一盘什么局呢?这五层蛋糕难道每一层英伟达都能吃透吗?

我们的嘉宾任杨认为,每一层蛋糕中,如果每个玩家水平都差不多,没有绝对领先或者绝对垄断者,那么这一层的利润就会被摊薄,这被称为 "being commoditized"(同质化)。议价权最终还是回到有绝对领先和垄断的这一层,也就是英伟达的芯片层。

也就是说,最终黄仁勋还是要靠卖芯片。但在其它层的蛋糕中,英伟达要扶持起自己的软件生态,定义规则。就像打造 CUDA 这样的护城河一样,一旦在新的市场定义了范式,当市场爆发,大家发现最好用的还是英伟达的平台,那最后要买的依然是英伟达的算力和卡。

比如说,英伟达看到基建层,像谷歌云和 AWS 这样的云厂商有强议价权之后,又扶持起了 CoreWeave 和 Nebius 这样的 Neocloud(新云平台)来进行竞争。再比如说,在模型层,英伟达各种大小模型开源了一大堆,而且这次黄仁勋专门组织了一场全球最核心的开源模型论坛,就是想在模型这一层,试图在长期削弱 SOTA(State of the Art,最顶尖)的顶级闭源模型的议价权。而在应用层,英伟达也在研发自动驾驶和机器人,等待行业大规模爆发,为的就是提前布局生态位。

所以老黄正在时刻关注的其他层级的蛋糕,但最赚钱的,始终还是芯片这一层。所以这一层也是黄仁勋盯得最紧的。而这次的 GTC 上,传达出两个信号。

Chapter 3.2:基于 Groq 的 ASIC 反击战

第一个信号就是在芯片层,老黄发布了基于 Groq 研发出的 LPU。要知道,对 Groq 的非独家技术授权交易是去年 12 月圣诞节前后才宣布的,花了 200 亿美元现金,可以说是英伟达有史以来最大的一起交易。

Groq 创始人 Jonathan Ross 在最新的福布斯杂志采访中爆料说,和 Groq 的交易这件事情也是老黄只花了三周就迅速做的决定。

而到如今的 GTC 才 3 个月,产品就已经出来了,只能说,老黄和英伟达卷起来真的没其他人什么事儿了。那么,为什么要 " 收编 "Groq 呢?

简单来说就是 GPU 架构,即使强如 Vera Rubin,擅长的是高吞吐的并行计算,做 prefill(上下文预处理)和 attention(注意力计算)很厉害,但在超高速 token 生成(decode)这个任务上就没那么给力了。因为 token 生成的特点是只能一个一个的生成,整个过程必然是串行链式的,对每一步延迟极其敏感。

所以," 高吞吐 " 和 " 低延迟 " 本身互相矛盾,很难两全。而 Groq 就是这个矛盾的解法。

Groq 通过 SRAM(静态随机存取存储器)设计,天生就适合做推理和 token 生成。就像 Groq 创始人 Ross 打动黄仁勋的那个类比,他说强大的 GPU 就像 "18 轮大卡车 ",但推理任务就像 " 最后一公里配送 ",本身就更适合更灵活高效的面包车。他对老黄说,如果你要为美国建立一个物流网络,最佳答案是,18 轮卡车和面包车你都需要。

而在 OpenClaw 之后的 Agent 时代,老黄通过与 Groq 的深度技术与人才合作,解决了 token 生成的挑战,这是非常关键的一步。而 Groq 的新芯片融入英伟达体系后,英伟达宣称这将解锁 3000 亿美金的增量市场,可以说,这 200 亿花得值了。但还有个内存上的小难题:SRAM 缺点是第一很贵、第二很占面积、第三容量做不大。

单颗 Groq 3 LPU 只有 500MB SRAM,而 Rubin GPU 是 288GB HBM4,差了 500 多倍,根本存不下万亿参数的模型。英伟达的解法是用 Dynamo 软件把推理过程拆成两半,Vera Rubin 这边的 GPU 负责 prefill 和 attention,而 Groq 负责之后 decode 和 token 生成。

所以我们看到,一颗 Rubin GPU 配上 8 颗 Groq 3 LPU,统一为一个推理单元。而 Groq 3 LPX 整机把 256 颗 LPU 装进一个机架,能提供 128GB SRAM、40PB/s 带宽、315 PFLOPS 推理算力和 640TB/s 互连带宽。

英伟达和 Groq 的这个交易目前还面临反垄断的一些潜在调查,因为涉嫌 " 变相收购 "(虽然这个做法已经是硅谷巨头在 AI 时代的基本操作了)。但 LPU 已经和三星在合作量产了,预计今年第三季度出货,而 Vera Rubin 机架已经在微软 Azure 云上运行。

同时,英伟达联手 Groq 还有一个战略上的意义,就是打出了 ASIC 反击战。我们之前文章说过,ASIC 是专项芯片,虽然不如 GPU 那么通用,但如今却是各大科技巨头自研的重点,以及各个云厂商也都在扶持 ASIC 芯片的研发试图蚕食英伟达 GPU 的利润率和议价权,包括谷歌的 TPU 也是 ASIC 芯片,Groq 本身也是 ASIC 芯片。但英伟达这次告诉外界:我也可以做 ASIC 芯片,而且还跟我自己的 GPU 结合,性能更强哦!

Chapter 3.3:枯木逢春的 CPU 与备受期待的 CPX

我们再来看看芯片层的第二个关键词:CPU,是不是有种 " 枯木逢春 " 的感觉。AI agent 时代 token 经济的崛起不但救了 Groq 一命,连老古董 CPU 也重新成为了香饽饽。

虽然 GPU 擅长训练和运行 AI 模型,但随着 Agent 工作负载的不断增长,这些系统需要传输海量数据,并协调跨多个智能体的工作流程,这使得 CPU 在现代 AI 基础设施中的重要性丝毫不亚于 GPU。

所以,英伟达在这次 GTC 上发布了 Vera CPU,被称为" 全球首款专为代理式 AI 与强化学习时代打造的处理器 ",其效率是传统机架级 CPU 的 2 倍,速度提升 50%。包括 AI 编程明星公司 Cursor 也为 Vera CPU 站台,说提升了他们的整体吞吐量和效率,给客户带来了更快速灵敏的编程 agent 体验。

在芯片层这里,还有一个秘密武器就是 CPX。

这是黄仁勋在去年 9 月的 AI 基础设施峰会上推出的、专门针对长语境推理进行优化的芯片,可以说代表了 GPU 设计的一个全新类别。这款芯片能够处理百万级 tokens 的软件编程和生成式视频,在速度和效率方面实现突破性提升,被外界认为能进一步稳固英伟达在推理上的优势。

有意思的是,老黄这次的演讲中根本没有提到 CPX,也让业界很好奇,英伟达目前在芯片层的这套组合拳:GPU、CPU、LPU、CPX,是否会进一步拉开与竞争对手的差距。

总结一下,这五层蛋糕互相支撑但又互相牵制,黄仁勋在做的是要整合这五层,确保英伟达在每一层都有话语权,无论是扶持甲方的竞争对手,还是自研开源模型,还是在不同领域保持开放合作来定义行业入口和范式。

英伟达的叙事早已不是 " 芯片 " 而已了,黄仁勋在发布会上手握单芯片的那些名场面已经成为过去。未来,是完整的 AI factory,是更宏大的 token 经济学。这让英伟达的护城河也早已超越 CUDA,让竞争对手们更难攻破它的生态帝国。

前沿技术布道:CPO、太空数据中心与 Scale-across 布局

黄仁勋一直在布局下一个即将爆发的产业,也对前沿技术非常的敏锐。他这次在发布会上没太多提共封装光学 CPO,以及数据中心中机组的 Scale-up(纵向扩容)和 Scale-out(横向扩容)。

但英伟达在 3 月初分别向光子技术巨头 Lumentum 和 Coherent 各注资 20 亿美元,并锁定数十亿美元采购承诺及未来产能权益。这两家公司都是 CPO 的核心供应链,业内人士认为,黄仁勋这是在准备为下一代 " 吉瓦级 AI 工厂 " 去铺垫光互联的底座。

目前产业里面还在讨论 Scale-up(纵向扩容)和 Scale-out(横向扩容),而行业人士说,黄仁勋已经在思考说再下一步,Scale-across(跨域扩展),也就是不同数据中心的互联怎么去解决了。

当然,还有更遥远的一些布局,包括在演讲中黄仁勋提到的太空数据中心等等,我们也写过一篇文章介绍。

在这篇文章的最后,我还想稍微聊聊整个芯片和数据中心供应链目前的一个情况。如果大家还记得这五层蛋糕,可以看到能源和数据中心供应链的基础层,决定了芯片的产能,也决定了整个 AI 模型和应用能否得到足够的算力支撑,也决定了 AI 的进程。

供应链全面吃紧,内存与能源的超级周期

我们在 GTC 期间跟供应链的朋友聊天,得到的信息是:缺,什么都短缺。

Alex 对我们表示,最近全球地缘政治,特别是中东的波动让能源价格异常波动,这也给全球 AI 数据中心的能源供应带来了更高不确定性,但能源这一部分大概会占到 token 定价的 10% 左右,而让 token 价格高居不下的,还是供应链短缺带来的价格飙升,特别是内存方向。

而我们也在会展现场访问到了内存市场的决定性大赢家三星,他们认为,紧缺的状态至少要持续到 27 年年底

随着 Agenic 时代来临,非常多的范式会发生变化,有机遇也有挑战,而 GTC 会依然是 AI 行业的指路标,我们也会为大家继续关注以上我们的提到的这些产业和方向。不知道在一年后的 GTC 大会,我们的世界会被 AI 加速多少呢?

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容