图片来源 @unsplash
一家云计算厂商是否选择自研芯片,还是底第三方的产品技术,可以从产业链分工的角度去思考这个问题。企业越靠近上游,越需要特别大的规模效应,对技术的整合能力、需求的共性把握要求会更高,例如做 GPU 的英伟达、CPU 的英特尔,就是处于上游位置,云计算厂商一般是很难撬动这样的市场。但如果这个领域发生变化,就可能产生新的机会,这个机会能够让云计算厂商在竞争中产生一些阶段性的优势,或者对内业务能够提供更高的性价比,这就值得云计算厂商去加大投入去做。
如今,这个变化叫做 Agent 爆发驱动下的大模型训练和推理需求增长,这个投入的机会则是自研芯片包括不限于 AI 推理 / 训练、X86 等方案。事实上,全球头部云厂商不约而同地加快了自研芯片的步伐。
替代英伟达?自研芯片进入商业化阶段
在笔者看来,海外云厂商的自研芯片大致经历了三个阶段。
第一阶段是为自身业务降本,例如 AWS 早期推进的 Graviton,核心目标是提高云内部效率;第二阶段是争夺市场话语权,随着 x86 芯片开始规模化量产,并在云基础设施中占主导地位,芯片开始成为云厂商吸引客户、定义架构的重要工具;第三阶段是当芯片具备自我造血能力后,围绕 AI 需求重构基础设施,重点是通过多样化芯片供给,减少对单一供应商的依赖,把推理和训练产生的利润更多掌握在自己手中。而 AWS、微软云、谷歌云的自研芯片路径也就此正式分化:
公开信息显示,AWS 已将 Trainium 和 Graviton 作为核心自研芯片产品,分别覆盖 AI 训练、推理及通用云计算厂商。据安迪 · 贾西在今年 4 月披露的信息中,其芯片业务正持续扩张,并成为云业务的重要组成部分,其中,Trainium3 比上一代效能提升 4 倍、能耗降低 40%,AI 训练与推理成本最多可减少 50%。
谷歌云的自研张量处理器 TPU 一直是 AI 芯片领域的标杆,尤其最近谷歌云宣布向其客户出售 TPU 反映出市场对其芯片的强烈需求。Google Cloud Next 大会上,谷歌云将第八代 TPU 拆分为两款独立芯片—— TPU 8t(训练)和 TPU 8i(推理),这体现出其对 AI 工作负载分工的判断。谷歌云宣称,TPU 8t 的训练性价比较上一代提升约 2.7 倍,TPU 8i 的推理性价比提升 80%。
微软方面,更偏向于推力侧优化。今年 1 月,微软发布第二代 AI 芯片 Maia 200,用于 Azure AI 和 Copilot 相关推理业务,其性能对标谷歌第七代 TPU。为了实现机制推理效能,微软进行了一个关键性设计取舍,仅原生支持低精度计算(FP8/FP6/FP4),并基于标准以太网的新型双层可扩展网络设计,不依赖于专有网络架构。目前 Maia 200 优势在于与其 Azure 云服务生态、OpenAI 前端业务深度绑定,以及 Microsoft 365、Teams 等海量用户场景,以提升芯片设计优势。
整体来看,AWS 采取的是训推一体思路,强调用 Trainium、Graviton 等芯片组合覆盖从训练到推理的业务场景;谷歌最新的动态则表明其更倾向于训练和推理解耦,第八代 TPU 已经分工明确;微软聚焦推理侧,Maia 200 的定位就是支撑 Azure AI 和 Copilot 等应用场景中的低成本、高效率推理需求。
这种分化反映出三家公司对 AI 产业阶段的不同判断:AWS 更强调全栈控制和规模效应,谷歌更看重专用化带来的性能和效率,微软则将重点放在企业级推理需求和应用入口上。不过,AWS 目前明确表示并不试图替代英伟达,例如其 Trainium4 支持英伟达 NVLink Fusion,而谷歌和微软则更倾向于与英伟达展开竞争。
而究其自研芯片能企业推理成本降低多少?以及在多大程度上能制衡英伟达的定价权?
市场反应已经给出部分答案。
AWS 官方披露,Trainium2 全面售罄,Trainium3 接近满订,Trainium4 提前一年半被预订大半。客户层面,Anthropic 已宣布承诺向 AWS 定制芯片投入高达 1000 亿美元,而 Meta 也于近日与 AWS 达成在 Graviton 采购用于 AI 推理场景的合作。
去年底,研究机构 SemiAnalysis 发布报告指出,从总体拥有成本(TCO)角度看,谷歌第七代 TPU 芯片在成本效率上对英伟达构成显著优势。并且受竞争压力,OpenAI 已从英伟达获得约 30% 的算力报价折扣。近期,黑石集团宣布与谷歌成立的美国合资公司,向客户提供数据中心容量、网络、运维以及 Google Cloud TPU 的 compute-as-a-service 服务,可以理解为新 GPU 云入口。外界认为,此举将与 CoreWeave、Crusoe 这样的新兴 GPU 云厂商展开正面竞争。
扩大资本开支,云厂商的一本经济账
目前来看,云厂商的角色已经变化,不再是单纯的算力出租方。过去传统云计算时代主要依靠虚拟化和资源调度获取收益,而 AI 业务也更多依赖租赁 GPU 实现 AI 服务扩张,如今 AI 时代的需求更集中、更重资产,芯片、网络和软件栈的一体化设计策略也能够更容易地将 AI 算力利润留在平台。
也可以理解这一变化是为拆掉 "Token 暴利墙 ":一边是上游芯片厂商凭借供给稀缺性拥有较强定价能力,另一边是大量 AI 应用企业因推理成本不断推高而承压。尤其在视频生成、Agent、多轮对话、编程等高算力消耗场景中,单位 Token 的成本已经成为影响商业化速度的关键变量。
云厂商加码自研 AI 芯片还有一个现实背景:AI 需求已经大到不完全适合传统租云模式。头部大模型公司和 AI 应用企业开始更重视自建或半托管 AI 基础设施,而中型体量客户则希望获得更便宜、更稳定、更易规模化的 AI 算力供给。在这种情况下,云厂商如果不能提供更具性价比的方案,就可能在未来的 AI 基建的竞争中被边缘化。
AWS、微软云、谷歌云与 OpenAI、Meta、xAI 等头部大模型企业的关系,也不再是简单的算力采购,而上升为基础设施协同和生态绑定。这类合作一方面帮助云厂商验证自研芯片和基础设施方案的可行性,例如 AWS 与 Meta 的合作,微软此前与 OpenAI 的深度绑定,以及谷歌与 Anthropic 的合作。
云厂商近年来频繁扩张 AI 相关资本开支。亚马逊在 2026 年一季度资本开支达到 432 亿美元,并将全年资本开支指引上调至约 2000 亿美元;Alphabet 将 2026 年资本开支指引提高至 1800 亿至 1900 亿美元;微软同样维持高强度投资,2026 财年资本开支指引约为 1900 亿美元。
市场普遍认为,这轮投入短期内未必直接改善利润,但有助于云厂商降低单位推理成本,并增强客户黏性。财务上能否回本,取决于三类因素:一是单位推理成本是否下降,二是客户是否因此扩大使用规模,三是云厂商能否吧自研芯片与大模型托管包装成为更强的商业模式。
当然,芯片本身未必对于云厂商是利润中心,但它可能决定云服务的利润上限。尤其在高算力消耗场景中,Token 价格一时间不可能打下来。
值得关注的是,国内云厂商目前也在加快自研芯片和数据中心等相关布局。公开信息显示,阿里已推进在最新万卡集群数据中心中使用自研 AI 芯片 " 真武 ";华为昇腾 950 系列 AI 芯片因国内 AI 订单需求大幅提升,计划 2026 年生产约 75 颗 950PR 芯片;腾讯则计划用 792 亿元主要用于 AI 基础设施投入,探索提升算力利用效率。
同样是 GPU 芯片紧缺背景下,相比海外云厂商,国内路径更强调供应链可控、软硬件协同以及行业落地能力。这种模式目前尚未能以单点芯片竞争为目标,而是通过 Scale-out 互联将单集群规模推高至万卡以上,两者叠加从而构建超万卡集群的大算力底座,这种巧妙的变通方案,尽管会带来一定实际挑战,但已经吸引到了不少国内企业客户。
当然,云厂商下场造芯这件事情不是从今天才开始的,短期内,英伟达在 GPU 芯片市场的主导地位仍然难以被迅速撼动。过去十年,分布式云计算构建经典的 " 削峰填谷 " 和 " 资源池化 ",以更好地实现云服务的弹性调度。大模型场景下,算力需要大规模集中式训练,服务器也无法被切分成单个虚机,云厂商再也无法通过超卖获得超额的利润回报。
从这个角度看,云厂商开始更多地精力投入在自研造芯这件事情上,争的是未来对 AI 市场的定价权,谁能更有效地压低 Token 成本,谁就更有机会把 AI 变成一门可持续的生意。
(作者 | 杨丽,编辑 | 杨林)