关于ZAKER 合作
钛媒体 43分钟前

AI 芯片:回望过去一年,展望 2026

文 | 云石乱笔

2026 年 3 月,全球半导体产业正处于一个关键转折点。AI 芯片驱动行业收入逼近万亿美元大关,但繁荣的表象之下,竞争格局正在经历深刻的重塑。从 Nvidia 的 GTC 2026 大会到 Tesla 宣布自建晶圆厂,从 Google TPU 打入外部市场到 AMD 发起正面挑战,过去一年发生的一切,正在重新定义 AI 算力的未来版图。

万亿美元的赛道:数字背后的结构性变局

全球半导体行业正以惊人的速度膨胀。据世界半导体贸易统计组织(WSTS)数据,2026 年全球芯片销售额预计将达到 9750 亿美元的历史峰值,同比增长约 26%。而这一增长的核心引擎,就是 AI 芯片。

德勤在其 2026 年半导体行业展望报告中估算,生成式 AI 芯片的收入将在 2026 年接近 5000 亿美元,约占全球芯片销售额的一半。AMD CEO 苏姿丰(Lisa Su)更是将 AI 数据中心加速器芯片的总可寻址市场预期上调至 2030 年 1 万亿美元。

但数字的光鲜掩盖了一个深刻的结构性矛盾:AI 芯片贡献了约 50% 的行业收入,却仅占芯片总出货量的不到 0.2%。2025 年全球共售出约 1.05 万亿颗芯片,平均售价仅 0.74 美元,而 AI 芯片不过约 2000 万颗。这意味着,整个行业的繁荣高度集中在极少数高价值产品上。

与此同时,非 AI 领域的市场表现令人担忧。由于 AI 对 HBM(高带宽内存)和先进制程产能的大量占用,特定 DDR5 配置的消费级内存价格在 2025 年 9 月至 11 月间飙涨约 4 倍,PC 和智能手机市场预计在 2026 年出现下滑。德勤将这种现象描述为一个 " 高风险悖论 ",行业把所有鸡蛋放进了 AI 这一个篮子里。

Nvidia:王座之上的焦虑

过去的一年,没有人比 Nvidia 更能体现 AI 芯片的统治力与焦虑感。

2026 年 3 月 16 日,Nvidia 在 GTC(GPU Technology Conference)2026 大会上发布了一系列重磅产品。最受瞩目的当属 Vera Rubin 超级芯片架构,基于台积电 N3B 工艺,搭载 HBM4 内存,单颗 VR200 封装可提供惊人的 35 petaFLOPS FP4 算力,配备 288GB 超高速 HBM4(带宽目标 22TB/s)。72 颗 VR200 组成的 NVL72 机架,将再次刷新 AI 算力的天花板。

但真正让行业意外的是另一个消息:Nvidia 以约 200 亿美元与推理芯片公司 Groq 达成技术授权协议,引入 Groq 创始人 Jonathan Ross、总裁 Sunny Madra 及核心团队,并在 GTC 上发布了 Groq 3 LPU(语言处理单元)。这不是一次简单的技术引进。Groq 的 LPU 采用确定性执行架构,内置 230MB 超快 SRAM,没有外部内存,却能以极低延迟运行 AI 推理任务。Nvidia 推出的 Groq 3 LPX 平台,由 128 颗 Groq 3 LPU 组成的机架与 Vera Rubin NVL72 协同工作,号称可实现每兆瓦 35 倍的吞吐量提升和 10 倍的收入机会。不过,当前的 Groq 3 仍基于较早的架构演进,而基于三星 4nm 工艺的第二代 LPU 已在研发中。Nvidia 拿到的不只是一颗芯片,更是一条完整的推理芯片技术路线。

这一布局的战略意义非常清晰:当行业重心从训练转向推理,Nvidia 需要一款专用推理芯片来捍卫自己的领地。正如 Nvidia 超大规模与高性能计算副总裁伊恩 · 巴克(Ian Buck)所言,GPU 的内存更大,而 LPU 的内存更快,两者结合,才能覆盖从万亿参数模型到百万 token 上下文的全场景推理需求。

Nvidia 还发布了独立的 Vera CPU 机架,将 256 颗液冷 Vera CPU 集成在一个系统中,专门针对正在兴起的 AI Agent 工作负载。当 AI Agent 需要浏览网页、提取数据、执行多步推理时,CPU 性能变得至关重要。这是 Nvidia 从 GPU 公司向全栈 AI 算力平台进化的又一步。

Nvidia 的数据中心收入在 2026 财年达到 1935 亿美元,较上年的 1162 亿美元大幅增长。但市场份额正在面临空前的挑战。

挑战者联盟:从追赶到正面较量

AMD:内存为王的赌注

如果说 2025 年 AMD 还在奋力追赶,2026 年可能是它扳回一局的转折点。

AMD 即将推出的 MI455X 基于全新的 CDNA 5 架构,采用 12 颗 2nm 和 3nm 逻辑 Chiplet 的混合设计,通过先进的 3.5D 封装连接,总计 3200 亿晶体管。最大的卖点是内存配置:432GB 的下一代 HBM4,带宽接近 20TB/s。这在内存容量上超过了 Nvidia 的 Vera Rubin(288GB HBM4),至少在 Rubin Ultra 推出之前(后者将配备 1TB HBM)。

但 MI455X 只不过是拼图的一半。真正决定 AMD 这次能否改变格局的,是 Helios 机架架构。

过去几年,AMD 在 AI 芯片的单卡性能上并不逊色,MI300X 和 MI355X 都交出了不错的成绩单,但市场份额始终难以突破。原因不在芯片本身,而在系统。Nvidia 的统治力建立在 NVLink、NVSwitch 和 NVL72 整套机架级互连方案之上,客户买的不是一颗 GPU,而是一套从芯片到机架、从硬件到软件的完整生态。AMD 长期缺少的正是这一环。

Helios 是 AMD 对这一短板的正面回应。它不再只是把多颗 MI455X 装进一个机柜,而是提供了一套完整的机架级系统架构,包括高速互连、统一的内存寻址和针对大规模 AI 工作负载的 Scale-up/Scale-out 方案。Semi Analysis 的深度分析指出,Helios 的意义在于 AMD 第一次在系统层面向 Nvidia 的 NVL72 发起了对等挑战,不只是卖芯片,而是卖方案。

对 AMD 而言,Helios 的成败可能比 MI455X 本身更关键。芯片规格再强,如果无法提供客户从 Nvidia 生态迁移过来的完整路径,就只能停留在纸面上。Helios 能否按时交付、软件生态能否跟上、大客户是否愿意为第二选择投入资源,这些问题的答案将决定 AMD 在 AI 芯片领域究竟是永远的 " 第二名 ",还是做个真正的竞争者。

Google Ironwood TPU:十年磨一剑

Google 可能是 AI 芯片领域真正的 " 老兵 ",第一代 TPU 早在 2015 年就投入使用,比 Nvidia 的第一款 Tensor Core GPU 还要早两年。当整个科技圈还在为区块链狂热的时候,Google 已经在为 AI 时代铺路。更不用说,开启大模型时代的那篇 "Attention Is All You Need" 论文,本质上就是 Google 的成果。

2025 年 11 月发布的 Ironwood(TPU v7)是 Google 最新的杰作。基于台积电 N3E 工艺,采用双芯片(dual-chiplet)设计,配备 192GB HBM3E 内存,专为运行 Gemini 系列模型的推理任务而设计。Ironwood 最独特的优势在于 Google 的光学电路交换技术,利用微型物理镜面实现超高效光学互连,可将最多 9216 颗 TPU 连接成一个超级 Pod,这种规模的单一集群是当前任何竞争对手都无法匹配的。

Ironwood 真正的战略意义在于,Google 开始将 TPU 开放给外部客户。据报道,Meta 正在就 2027 年起采购数十亿美元 Google AI 芯片进行谈判。Forrester 分析师 Alvin Nguyen 评价说:"Nvidia 无法满足所有 AI 需求,Google 和 AMD 等替代方案在云服务和本地 AI 基础设施方面都是可行的。客户只是在寻找实现 AI 目标的途径,同时避免供应商的锁定。"

然而,Ironwood 有一个明显的 " 缺口 ":它是一颗专为推理设计的芯片。在大模型训练领域,Google 目前仍主要依赖上一代 Trillium(TPU v6e)和 Nvidia GPU 的组合。要真正构建一个能与 Nvidia 端到端抗衡的完整生态,Google 需要的不只是一颗推理冠军,还需要一颗同样能在训练场景中硬碰硬的下一代芯片。

这正是 TPU v8 被行业寄予厚望的原因。虽然 Google 尚未公开披露 v8 的具体规格和时间表,但从 Google 过去十年几乎保持一年一代的 TPU 迭代节奏来看(v5e/v5p 于 2023 年、Trillium 于 2024 年、Ironwood 于 2025 年),v8 在 2026 年下半年或 2027 年初亮相是合理的预期。

v8 的战略定位几乎可以确定:补齐训练这块拼图。Ironwood 已经证明了 Google 在推理芯片上的竞争力,但 Meta 等外部客户之所以还在大量采购 Nvidia GPU,核心原因正是训练工作负载。如果 v8 能在训练性能上与 Nvidia 的 Vera Rubin 正面抗衡,Google 就将成为唯一一家同时拥有世界级训练芯片、世界级推理芯片和世界级 AI 模型(Gemini)的公司,一个完全垂直整合的 AI 算力帝国。Amazon 的 Trainium 服务于云客户但自身没有前沿 AI 模型,Microsoft 的 Maia 推理能力强但训练仍依赖 Nvidia,Meta 的 MTIA 只服务内部工作负载。只有 Google 具备 "TPU + Gemini + Google Cloud" 三位一体的条件。

当然,这条路上最大的障碍不是硬件本身,而是软件生态。Nvidia 的 CUDA 经过十余年积累,已成为 AI 开发的事实标准,拥有庞大的开发者社区和成熟的工具链。Google 的 TPU 则依赖 JAX/XLA 编程模型,虽然在 Google 内部和部分研究机构中广泛使用,但在更广泛的企业市场和开发者生态中仍远不及 CUDA 的渗透率。即使 v8 的硬件规格全面超越 Vera Rubin,如果无法降低客户从 CUDA 迁移的门槛,TPU 的外部化进程仍将受到制约。这也是 Google 能否从 " 内部利器 " 转型为 " 行业平台 " 的关键考验。

十年前,没有人认为 Google 会成为 Nvidia 在 AI 芯片领域的主要挑战者。但 2026 年的现实是:Google 拥有最长的 AI 芯片研发历史、最独特的光学互连技术、最强的 AI 模型之一,以及一个刚刚开始接受外部客户的云芯片平台。TPU v8 如果如期到来,可能标志着 AI 芯片行业从 "Nvidia 一家独大 " 向 "Nvidia vs Google 双极格局 " 转变的真正开端。

差异化路径:另辟蹊径的挑战者

高通(Qualcomm):大卫挑战歌利亚

在 GPU 双雄和云厂商自研芯片之外,还有一个不该被忽视的名字:高通。

高通直到最近才完成首次大规模部署:1024 颗 AI100 芯片组成的集群。问题是,这批硬件已有三年历史,底层架构更是接近六年前的设计。千颗规模在 2026 年几乎不值一提。但真正值得关注的是 2025 年 10 月发布的 AI200。这颗 ASIC 基于台积电 N3E 工艺,包含约 700 亿晶体管,配备 768GB LPDDR5X 内存,明确瞄准推理市场。

高通的策略与众不同:选择 LPDDR5X 而非供应紧张的 HBM。一年前这看起来是个聪明的差异化选择,避开了 HBM 的产能瓶颈,用大容量低功耗内存服务推理场景。但随着内存价格全线飙涨,LPDDR5X 同样未能幸免,这一成本优势正在缩水。AI200 大概率不会在 2026 年掀起大的波浪。

不过,高通的路线图上有一个更值得期待的节点:下一代 AI250 将采用全新的存算一体(Compute Near Memory)架构,据高通披露,可实现有效内存带宽 10 倍的提升,并搭配下一代 LPDDR6 内存。如果 Nvidia 是歌利亚,高通很可能是那个手持弹弓的大卫,暂时还够不到头部战场,但技术路线足够独特,值得持续关注。

Cerebras WSE-3:整片晶圆的异类

在所有 AI 芯片中,Cerebras 的 WSE-3(Wafer Scale Engine 3)可能是最 " 另类 " 的存在。顾名思义,它将整片硅晶圆制成一颗芯片,不是 Chiplet 拼接,而是真正的单片。

WSE-3 于 2024 年发布,但 2026 年初刚刚宣布了新的集群部署。它基于台积电 N4P 工艺,包含 4 万亿颗晶体管,内置 44GB SRAM,理论内存带宽高达 21 PB/s。一切指标都是 " 天文数字级 " 的。但问题在于,到了 2026 年,44GB 的片上内存对于运行大模型来说已经捉襟见肘,即便它是速度极快的 SRAM。WSE-3 仍然在超低延迟推理服务场景中保持竞争力,但它可能正在成为这一代的 " 落单者 "。行业期待的是 WSE-4 能否带来足够的内存扩展来重回主流视野。

科技巨头的 " 自研芯片 " 浪潮

过去一年最引人注目的趋势之一,是越来越多的科技公司选择自研 AI 芯片,从 Nvidia 的客户变成 Nvidia 的潜在竞争者。

Amazon 的自研芯片战略可能是所有超大规模云厂商中部署规模最大的。AWS 已在其数据中心部署了数十万颗 Trainium 2 芯片,而 2025 年 12 月发布的 Trainium 3 UltraServer 性能较前代提升了 4 倍以上,能效提高 40%。Trainium 3 基于台积电 N3P 工艺,包含约 1250 亿晶体管,配备 144GB HBM3E。

但 Trainium 3 真正耐人寻味的,不只是技术规格,而是它背后的资本游戏。Amazon 向 Anthropic 累计投资约 80 亿美元。作为回报,Anthropic 将 Claude 模型的训练和运行大量迁移到 AWS 的 Trainium 芯片上。这不是简单的客户关系。Amazon 用真金白银 " 买 " 来了最顶级 AI 实验室对自研芯片的验证,而 Anthropic 获得了前沿模型研发所需的海量算力。双方的利益深度绑定:Amazon 需要 Anthropic 证明 Trainium 能跑最难的工作负载,Anthropic 需要 Amazon 的资金和基础设施来保持与 OpenAI 的竞争力。Claude 在 Trainium 上训练成功这件事本身,就是 Amazon 自研芯片战略最有力的市场背书。

更值得玩味的是 OpenAI 的选择。OpenAI 的最大投资方是 Microsoft,后者正在用自研的 Maia 200 芯片打造 Azure 上的 AI 推理基础设施。但 OpenAI 同时宣布将从 2026 年起使用 2GW 的 AWS Trainium 算力,这意味着 Microsoft 最重要的 AI 盟友,同时也在用 Amazon 的芯片。在 AI 算力供不应求的当下,没有任何一家 AI 实验室能承受把所有赌注押在单一供应商身上。Anthropic 同样如此。在拿了 Amazon 的 80 亿美元之后,又计划从 Google Cloud 获取多达 100 万颗 TPU 的算力,同时还在使用 Nvidia GPU,在三家供应商之间维持着精心计算的平衡。

业内分析师将这种模式称为 " 循环融资 ":云厂商投资 AI 公司,AI 公司反过来购买云厂商的算力和芯片,资本和算力在几家巨头之间循环流动。这已经不是传统的供应商 - 客户关系,而是一种深度耦合的共生结构:每家公司既是对方的投资者,又是对方的客户,还是对方的潜在竞争者。Trainium 3 的成功,某种程度上不是靠产品与技术赢得市场竞争,而是靠资本纽带锁定了最关键的客户。

Microsoft 的 Maia 200 是其第二代自研 ASIC,基于台积电 N3P 工艺,包含 1400 亿晶体管,配备 216GB HBM3。这颗芯片将用于推理,优化了 FP8 和 FP4 性能,分别可提供超过 5 和 10 petaFLOPS 的算力。Microsoft 不仅将其用于自家模型,还将用来运行 OpenAI 的相关模型。

Meta 的 MTIA(Meta 训练与推理加速器)已进入第三代迭代,采用了台积电 N3P 工艺,预计超过 1000 亿晶体管,并首次从前两代的 LPDDR5X 升级到 HBM 内存,这一变化本身就说明 Meta 对自研芯片的性能预期在大幅提升。MTIA v3 不会是争夺 AGI 的芯片,但 Meta 对自己的内部工作负载了如指掌:不只是 AI 聊天机器人,更是驱动 Facebook、Instagram 和 Threads 推荐算法的核心推理模型。用自研芯片处理这些工作负载能提供更好的利润率,同时释放外购的 Nvidia 和 AMD GPU 用于前沿模型训练。扎克伯格(Mark Zuckerberg)的大手笔采购涵盖了 Nvidia GPU、AMD GPU 甚至 Google TPU,但长远来看,MTIA 承担的推理份额只会越来越大。

OpenAI 在 2025 年初完成了其首款自研芯片的设计,由前 Google 自研芯片项目负责人 Richard Ho 领导的 40 人团队操刀,采用台积电 3nm 工艺制造,目标 2026 年量产。这颗芯片最初将用于推理任务。考虑到 OpenAI 同时参与了 5000 亿美元的 " 星门 "(Stargate)基础设施项目,自研芯片的战略意图已昭然若揭。

最大胆的举动来自 Tesla。2026 年 3 月 19 日—就在本文撰写的前一天—马斯克(Elon Musk)宣布 Tesla 的 Terafab 项目将在 7 天内启动。这是一个垂直整合的半导体制造工厂,集逻辑处理、内存和先进封装于一体。据 Tesla 披露的目标,初期产能为每月 10 万片晶圆,年产 1000 至 2000 亿颗 AI 和内存芯片,预计投资约 200 亿美元。Terafab 的目的是为 Tesla 的全自动驾驶系统、Robotaxi 车队、Optimus 人形机器人和 Dojo 超级计算机提供自主可控的 AI 芯片供应。如果这一计划付诸实施,它将是 AI 时代最大胆的垂直整合尝试之一。

从训练到推理:行业重心的历史性转移

在所有技术趋势中,最深刻的或许是整个行业从 AI 训练向 AI 推理的重心转移。

Google Ironwood TPU 专为推理设计。Nvidia 引入 Groq 技术正是为了获得专用推理芯片。Microsoft 的 Maia 200 优化了推理性能。高通的 AI200 ASIC 选择了 LPDDR5X 而非 HBM,瞄准的也是推理市场。越来越多的迹象表明:训练一个大模型可能只需要做一次,但推理—每当用户向 ChatGPT 提出一个问题、每当 AI Agent 执行一个任务—需要持续不断地消耗算力。

这一转变正在重塑芯片设计的优先级。推理芯片更强调能效(每瓦每 Token 的性能)、低延迟、大内存带宽和确定性执行,而这些恰恰是传统 GPU 并非最优的领域。ASIC(如 TPU、Trainium、Groq LPU)和专用推理加速器的崛起,正在蚕食 GPU 在 AI 领域的垄断地位。

德勤的分析也印证了这一点:AI 数据中心工作负载预计在 2026 年至 2030 年间每年增长 3 到 4 倍。随着 AI Agent、实时推理和端侧 AI 的爆发,推理算力需求的增速将远超训练。

暗流涌动:繁荣背后的风险

在这场 AI 芯片的盛宴中,几个潜在风险值得警惕。

能源瓶颈。高盛估计,到 2027 年 AI 数据中心将需要额外 92GW 的电力。用于发电的燃气轮机订单已排到 2030 年以后,数据中心审批可能因消费者电价上涨风险而受阻。能源正在取代芯片本身,成为 AI 扩张的最大瓶颈。

内存危机。AI 对 HBM3、HBM4 和 DDR7 内存的需求导致消费级内存(DDR4、DDR5)严重短缺。据 Counterpoint 统计,2025 年第四季度内存均价飙涨 50%,部分分析师认为这种紧缺可能持续十年。这不仅影响 PC 和智能手机市场,也在推高 AI 系统本身的成本。

投资回报的不确定性。大多数数据中心建设方并不指望第一年就收回投资,但如果 AI 变现的速度和规模不及预期,项目可能被取消或推迟,对芯片销售造成冲击。德勤提醒,2026 年的订单基本锁定,但 2027 和 2028 年可能出现急剧分化。

地缘政治的持续扰动。出口管制、关税、技术主权争夺正在重塑全球半导体供应链。2025 年 12 月,美国政府批准 Nvidia 向部分获准的中国客户出售 H200 芯片,但条件是 25% 的芯片销售份额。各国纷纷加速建设本土芯片制造能力,但先进封装和测试领域的人才短缺—尤其在美国和欧洲—可能成为持久性的障碍。

展望 2026 下半年:确定趋势与开放问题

站在 2026 年 3 月的时间节点上,有几个趋势已经相当明确:

第一,Nvidia 仍将主导,但其份额将继续被稀释。Nvidia 控制着 AI 芯片市场 90% 以上的份额,但 Google TPU 的外部化、AMD MI455X 的正面竞争、以及各大科技巨头的自研芯片,正在多个维度侵蚀这一优势。正如 Forrester 分析师所言,Nvidia 戴着 " 金手铐 ":它是 AI 的代名词,但也被迫不断推出最先进的高利润产品,而放弃利润率较低的市场,而这恰恰给了竞争者成长空间。

第二,推理芯片将成为增长最快的细分市场。从 Nvidia 引入 Groq 技术到 Google 开放 Ironwood,从 Microsoft 优化 Maia 到 AWS 规模化 Trainium,行业共识已经形成:推理是下一个主战场。

第三,垂直整合将加速,资本纽带将取代市场竞争成为客户锁定的核心手段。Tesla 建晶圆厂只是最极端的案例。Amazon 投资 Anthropic、Microsoft 投资 OpenAI、Google 同时向两家提供 TPU 算力," 循环融资 " 正在成为 AI 芯片行业的新常态。谁能用资本绑定最关键的 AI 模型公司,谁的芯片就能获得最有价值的市场验证。

第四,系统级性能将取代单芯片性能成为核心竞争力。Chiplet 架构、HBM-on-Logic 集成、光学互连(CPO/LPO)、软件定义网络,这些系统级创新的重要性正在超越芯片本身的工艺节点。AI 数据中心的竞争,越来越像是 " 系统的战争 " 而非 " 芯片的战争 "。

还有几个开放性问题将在未来数月内揭晓答案:

Google 的 TPU v8 能否如期到来并补齐训练短板?如果成功,AI 芯片行业可能从 Nvidia 一家独大走向双极格局,但 CUDA 生态的护城河仍是最大变数。

Intel 的 Jaguar ShoresGPU 能否在 2026 年内问世?这颗基于 Intel 18A 工艺、包含 1750 亿晶体管、配备 288GB HBM4 的芯片,纸面规格颇具竞争力,但正如业内人士的评价:" 纸面是要有耐心的。" 经历了多次 AI GPU 的失败尝试后,Intel 不仅要证明自己能造出芯片并量产,还要拿出过硬的软件支持。一个健康的 AI 芯片市场需要第三个 GPU 玩家。

Cerebras 的 WSE-4 何时发布?WSE-3 的 44GB SRAM 在 2026 年已显不足,整片晶圆规模的芯片概念要延续生命力,内存扩展是当务之急。

Tesla 的 Terafab 是又一个马斯克式的宏大愿景,还是能真正改变半导体制造格局的颠覆性项目?

当 AI 芯片收入占据半导体行业的半壁江山,一旦 AI 投资周期出现回调,整个产业链将如何应对?

结语

AI 芯片行业在过去一年经历了一次急剧的加速。Nvidia 仍然是这场竞赛中当之无愧的领跑者,但赛道上的选手从未如此之多、如此之强。专用推理芯片快速崛起,超大规模云厂商纷纷投入自研硅片,Chiplet 架构趋于成熟,光学互连开始落地。而在技术竞争之上,资本纽带正在重新定义谁是谁的客户、谁是谁的对手。

在 9750 亿美元的半导体市场数字背后,是一个行业正在经历的根本性转型:通用计算让位于专用智能,单一供应商主导走向多元生态共存,峰值算力竞赛转变为全系统能效优化。2026 年下半年,当 Vera Rubin、MI455X、Trainium 3 和各家自研芯片陆续进入规模部署,当 Google 的 TPU v8 是否亮相揭晓,我们将看到这场变革的第一批真正的答案。

这不仅仅是一场芯片的战争,更是一场关于 AI 基础设施未来形态的根本性辩论。而 2026 年,正是这场辩论从纸面走向现实的最关键的一年。

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容