关于ZAKER 合作
钛媒体 38分钟前

亚马逊又拿到船票了,这次是芯片

文 | 字母 AI

" 我们的芯片业务火热。"

这句话既不是出自英伟达、英特尔,也不是谷歌、微软,而是来自于亚马逊 CEO 安迪 · 杰西(Andy Jassy)最新的股东信。

他还补充到,Trainium 芯片的需求正在爆发。

这听起来多少有点反直觉。

因为过去一段时间,你听到的亚马逊,大概率不是这个故事。

你听到的应该是亚马逊如何裁员,是自由现金流被 AI 基建吞掉,是 AWS 增速被质疑,是它和甲骨文一起被放进了 "AI 包工头 " 那一拨里。

在很多人的印象里,亚马逊根本就不是一家站在 AI 潮头的公司。

模型这边,OpenAI 有 ChatGPT,Anthropic 有 Claude,谷歌有 Gemini。如果我问你亚马逊最强的模型叫什么,很多人可能还真得先搜一下。

但在大家没怎么注意的地方,亚马逊其实已经暗度陈仓了。

在这封股东信里说写到,AWS 的 AI 业务年化收入已经超过 150 亿美元。

更关键的是,包含 Graviton、Trainium 和 Nitro 在内的亚马逊自研芯片业务,年化收入已经超过 200 亿美元,而且还在以三位数同比增长。

安迪表示,如果把这块业务单独拆出来,像英伟达、英特尔那样直接向第三方卖芯片,它的年化规模大约可以达到 500 亿美元。

这个规模就不能再管它叫 " 内部降本工具 " 了,这是一块真正长出来的新业务。

更重要的是,亚马逊现在不是只做芯片。它有底层芯片,有数据中心,有 AWS,有 Bedrock,有 Anthropic 这样的深度绑定客户,也有 OpenAI、苹果这些外部大客户。

换句话说,虽然模型本身没那么亮眼,不过亚马逊的确是一家全栈 AI 公司了。

微软还在 OpenAI、Copilot、Azure 和 Maia 之间摸索主轴,但亚马逊的方向反而越来越清楚。

让 AI 尽可能跑在 AWS 上,尽可能消耗 AWS 自己的芯片,最后把 AI 时代的利润率和控制权重新抓回自己手里。

所以我才觉得,芯片正在成为亚马逊的 "AWS"。

就比如 Anthropic,现在他们的 Claude 模型,全都已经在亚马逊的芯片上跑过了。

为了吃定 Anthropic 这个大客户,亚马逊还专门建了一个 AI 算力集群,叫 Project Rainier。

这个集群是全球已知最大的非 Nvidia 算力集群之一,仅印第安纳州 New Carlisle 这一处园区,当时就已经部署了大约 50 万颗 Trainium2 芯片。

到 2025 年底,规模已经扩大到 100 万颗芯片。而这些芯片存在的目的就一个,跑 Claude。

亚马逊都这么客气了,Anthropic 自然也得礼尚往来,后者直接参与了亚马逊 Trainium3 芯片的设计工作。

以前都是芯片公司有什么芯片,AI 公司才能训练怎样的模型。现在反过来了,AI 公司开始教云厂商怎么造芯片。

问题也随之而来。亚马逊为啥非要自己造芯片?它真的是为了挑战英伟达,还是只是想把 AWS 的利润率再抬高一点?

归根结底,亚马逊造芯片这件事,表面看是个硬件故事,但你只要往深处看,就会发现还是亚马逊那套平台逻辑,把别人的增长,变成自己的基础设施收入。

一场从 2015 年开始的豪赌

Annapurna Labs 成立于 2011 年,然后他们就一直处于隐身模式。

这家公司由三位工程师创立,他们采用了一种很叛逆的设计理念,从云计算、数据流量、实际需求倒推回去,再设计芯片。这种反向思维方法,恰好与亚马逊的工作方式完全契合。

2015 年初,亚马逊以 3.5 亿美元收购了一家以色列芯片创业公司 Annapurna Labs。

没有新闻发布会,在亚马逊的财报中,也只有一条简短声明。当时所有人都觉得,这只是亚马逊众多投资中不起眼的一笔。

收购完成后,亚马逊并没有急于推出产品。Annapurna Labs 的团队先是参与了 AWS 相关项目,后来开始给 Nitro System 的底层做硬件设计。

Nitro System 是 AWS 的一套云基础设施底层架构。它是把原来由服务器主 CPU 和传统虚拟化软件负责的很多事情,拆出来交给专门的硬件去做。

Annapurna Labs 就是负责来设计这个硬件。

有一说一,这只是小打小闹,或者你可以直接理解为 Annapurna Labs 在融入亚马逊这个大家庭之前的一次团建,真正的故事要从 2018 年开始讲起。

3 年之后,AWS 推出了 Inferentia,这是一款专门用于推理的机器学习芯片。

亚马逊认为,与训练相比,推理任务对芯片的要求略低,更容易切入。这属于人之常情,很多国内做 AI 芯片的厂商也秉持着相同的想法。

2019 年,搭载 Inferentia 芯片的 Inf1 实例正式上线。

这玩意到底性能如何呢?亚马逊之前有一套搭载英伟达 T4 GPU 的云服务器,主打图形渲染、视频处理和机器学习推理。

Inf1 比 G4 多了最高 3 倍的吞吐,每次推理成本最多低 40%。

但是,Inf1 在市场上却没什么声量。原因在于它是专门为推理场景做了优化,特别适合用来做推荐系统、图像识别、语音识别、NLP 推理这些。

可问题就在于,亚马逊的整个芯片生态刚起步,你想用 Inf1,就必须得用亚马逊自己的 AWS Neuron SDK。

这个 SDK 的框架虽然支持 TensorFlow/PyTorch/MXNet,但兼容性和成熟度远不如英伟达的 CUDA。并且早期编译器限制很多,比如控制流、模型大小、BERT 序列长度等都有约束。

所以 Inf1 更像是个概念产品,只是给市场打了个样,亚马逊自己也深知这一点。

不过 Inf1 的表现还是超出了亚马逊的预期,于是接下来,亚马逊开始高歌猛进。

2021 年,AWS 正式发布了首款面向客户用于训练 AI 模型的芯片 Trainium。训练芯片的技术难度远高于推理芯片,第一代 Trainium 基于 7 纳米工艺,拥有约 550 亿个晶体管,于 2022 年开始为 EC2 Trn1 实例提供算力。

亚马逊表示,在特定工作负载下,Trainium 的每 token 成本比 A100 集群低 54%。对于 GPT 类模型,Trainium 的吞吐量与 A100 相当,但成本只有一半左右。

2023 年底,亚马逊在 re: Invent 大会上发布了第二代 Trainium2 芯片。这款芯片采用 5 纳米工艺,计算核心数量是第一代的 4 倍,训练速度提升 4 倍,内存容量显著增加。

Trainium2 针对生成式 AI 训练做了专门优化,支持结构化稀疏性,能够更高效地处理大语言模型的训练任务。且相较于基于 H200/H100 的同类云配置,价格性能可再提升 30% 到 40%。

2024 年 12 月,亚马逊在 re: Invent 大会上首次公布了新一代 Trainium3 芯片。这是 AWS 首款采用 3 纳米工艺的 AI 芯片。

到 2025 年底,Trainium3 被正式集成到 Trn3 UltraServer 中,每台服务器搭载 144 颗芯片,提供 362 petaflops 的总算力。这些服务器采用液冷技术,能效比前代提升约 4 倍。

AWS 表示在部分训练和推理场景下,客户可将成本进一步压低至英伟达 GPU 方案的一半左右。

从 2015 年到 2026 年,亚马逊在芯片业务上的投入是渐进式的,因此越后面投入越大。

2025 年,亚马逊的资本支出达到约 1250 亿美元,其中绝大部分流向 AI 所需的数据中心、电力和芯片。

2026 年,这个数字预计将达到 2000 亿美元,比分析师预期高出近 40%,也超过了谷歌宣布的 1850 亿美元上限。

亚马逊的芯片为啥能卖出去?

钱,不能只花不赚。

前文提到亚马逊芯片业务的年化营收已超过 200 亿美元,是这个数字包括 Graviton 处理器、Trainium 训练芯片和 Nitro 网络芯片的总收入。

这封信还透露,如果芯片业务作为独立公司运营,像英伟达或英特尔那样直接向第三方销售芯片,年化营收规模可达 500 亿美元。

Graviton 本质上就是 Annapurna Labs 开发的一款 Arm 服务器 CPU,用来替代英特尔和 AMD 那类传统 x86 处理器,负责跑 Web 服务、数据库、容器和各种企业应用。

你可能要问了,那为啥要有这玩意呢?我用英特尔的 CPU 不行吗?

AWS 上有大量的工作负载,其实根本不需要 GPU,也不需要什么 AI 芯片,这些东西吃的就是最普通、最稳定、最长期的服务器 CPU 算力。

对这些常见的工作负载来说,Graviton 更便宜、更省电,还更容易推广。

目前,亚马逊的芯片主要通过 AWS 以租用形式提供给客户,而不是直接销售硬件。客户购买的是 EC2 实例的计算能力,背后可能是 Graviton、Trainium 或 Inferentia 芯片。

这种商业模式与传统芯片厂商完全不同,倒是和网上一些租显卡的个体户很像。

从后来的结果看,Graviton 也确实成了亚马逊自研芯片里最早跑通商业闭环的产品。它不像 Trainium 那样需要客户重写大量训练流程,也不像 Inferentia 那样强依赖特定推理场景。

在 AWS 弹性计算产品的 1000 个最大客户中,超过 90% 正在使用 Graviton 芯片。AWS 还披露,有超过 5 万名客户在使用 Graviton。知名企业如苹果、SAP、Pinterest、Datadog 都是 Graviton 的用户。

所谓一分钱难倒英雄汉,很多公司迁移到 Graviton,就是因为它便宜、稳定,而且迁移成本低。

Graviton 先帮亚马逊证明了一件事,只要价格便宜,客户并不介意自己用的是什么芯片。

而这件事一旦被证明,Trainium 和 Inferentia 后面的故事才真正有了继续讲下去的底气。

Trainium 和 Inferentia 的客户就相对少一些,它们最大的客户是 Anthropic。

2024 年底,Anthropic 宣布了 Project Rainier,将使用一个拥有近 50 万颗 Trainium2 芯片的算力集群训练 Claude 模型,文章开头我就提到了。

这个集群在 2025 年投入使用,是当时世界上最大的机器学习训练集群之一,算力是 Anthropic 之前使用集群的五倍以上。

2025 年,OpenAI 先与 AWS 达成了规模达 380 亿美元的长期云合作承诺。到了 2026 年 2 月,亚马逊又宣布向 OpenAI 投资 500 亿美元,并确认 OpenAI 将通过 AWS 基础设施消耗约 2 吉瓦的 Trainium 计算容量。

考虑到 Anthropic 和亚马逊自己的 Bedrock 服务已经使用了大量 Trainium 芯片,亚马逊竟然还能腾出手接下 OpenAI 这笔大单子,可见当时的亚马逊已经 All In 芯片了。

除此以外还有苹果,它们的搜索产品采用了 Graviton 4 和 Inferentia 2,机器学习推理工作负载的效率提高了 40% 以上。苹果还在早期阶段测试 Trainium 2,初步结果显示,在 Trainium 2 上对模型进行预训练,效率将提升 50%。

然而正当亚马逊以为自己的芯片功法就要炼成的时候,有人给他们泼了一盆冷水。

2025 年 7 月,一份亚马逊内部标注为 " 机密 " 的文档显示,AI 初创公司 Cohere 发现 Trainium 1 和 Trainium 2 芯片的性能 " 不及 " 英伟达的 H100 GPU。

开发了 Stable Diffusion 的图像生成公司 Stability AI 也得出类似结论,认为 Trainium 2 在延迟方面表现不佳,使其在速度和成本上 " 竞争力较弱 "。

新加坡 AI 研究机构 AI Singapore 的测试表明,配备英伟达 GPU 的 AWS G6 服务器在多个使用场景下的成本性能都优于 Inferentia 2。

亚马逊对此回应称,这些反馈 " 并非当前情况 ",Trainium 和 Inferentia 已经在 Ricoh、Datadog、Metagenomi 等客户那里取得了 " 出色成果 "。

云巨头造芯片

尽管如此,需求仍在快速增长。

亚马逊的股东信中透露,两家大型 AWS 客户曾要求购买 2026 年所有的 Graviton 实例容量,但亚马逊因需要照顾其他客户的需求而婉拒了这两笔大单子。

AWS 在 2025 年新增了 3.9 吉瓦的电力容量,预计到 2027 年底总电力容量将翻倍。

亚马逊造芯片的故事,从 2015 年的一笔低调收购,到 2026 年成为年化 200 亿美元的业务,用了 11 年时间。

你要非得说这个增长多高多快,那也未必见得,但至少说得过去。问题就在于,这条路能走多远,能否真正复制 AWS 的成功。

亚马逊造芯片的核心逻辑很简单,降低成本,提高利润率。但这个逻辑能否成立,取决于三个问题:芯片真的更便宜吗?客户愿意为此付出迁移成本吗?多久能收回投资?

首先,客户需要使用 AWS 的 Neuron SDK 对代码进行适配。

Anthropic 的工程师透露,将训练流程迁移到 Trainium3 大约需要三周时间,这比早期几代定制芯片所需的数月时间大幅缩短,但仍然是一笔不小的工程投入。

其次,不是说所有的模型架构它都能用 Trainium 来跑。

有些架构需要 CUDA 进行特定操作,而且一些公司它是财大气粗的类型,要求算力必须达到极限,而这时候,仍然只能使用英伟达的产品。

如果把视角再往外拉一点,你会发现亚马逊对芯片这件事的执念,其实也和它自己在 AI 战场上的尴尬处境有关。

我就举一个例子,如果问你,亚马逊的模型是啥,你如果不去搜索,能立马回答得上来吗?

亚马逊不是没做模型,相反,它很早就布局了自己的 Titan 模型家族,后来又推出了 Nova,想把文本、图像、视频这些生成能力都补齐。

后面还有覆盖消费端到企业端的各种 AI 产品,比如 Bedrock、Q,再到升级版 Alexa。

问题在于,亚马逊每一步都跟着掺和了,但是每一步都没有让客户们满意。这就导致亚马逊在 AI 产业上面掉队了。

除了亚马逊,云巨头也都在重塑 AI 芯片市场。

谷歌的 TPU 已经迭代到第五代,微软也在开发自己的 AI 芯片 Maia。

谷歌虽然不直接卖 TPU,不过好歹还建了个云平台,对外销售 TPU 的算力。微软倒好,这个 Maia 就从来没有对外放出来过。

然而 Maia 的现状,并不乐观。

2023 年的时候,微软本想用 Maia 100 来跑 OpenAI、Copilot 这些大模型,但等产品刚开始部署的时候发现,Maia 100 的算力远远不够支撑当时的 ChatGPT,所以 OpenAI 也只能选择英伟达。

2025 年,微软下一代 Maia 被爆出难产,因此其量产时间从 2025 年推迟到了 2026 年,原因包括设计中途变更、团队流动和工程推进不顺,而且按当时外媒透露的消息,新 Maia 的性能也比不上英伟达刚刚发布的 Blackwell。

到了 2026 年 1 月,微软总算是正式拿出了采用 3nm 工艺的 Maia 200,但它的定位是推理,并不能像英伟达的 GPU 一样用来训练大模型。

然而市面上已经充满了替代产品,微软不仅技术上没有领先,就连产能和铺设速度也比不过亚马逊和谷歌,这就导致微软的 Maia 没能掀起什么风浪。

未来的 AI 芯片市场可能会分化为两个层次,一个是英伟达、AMD 主导的通用市场,另一个是云巨头各自的封闭生态。

对于初创公司和中小企业来说,选择哪个云平台,就意味着选择了背后的芯片架构。如果深度依赖 AWS 的 Trainium,将来迁移到其他平台的成本会非常高。

亚马逊以前掉队了,所以它才想要去锁定中小企业未来,指不定能在 AWS 上再养出来几个 OpenAI、Anthropic 这样的企业。

但从另一个角度看,云巨头的自研芯片也在推动整个行业的进步。英伟达之所以能够长期维持高利润率,部分原因是缺乏有效竞争。

当亚马逊、谷歌、微软都开始自己造芯片,就会去倒逼英伟达降价、加快迭代。

最终受益的是整个 AI 行业。

亚马逊造芯片能否成为下一个 AWS,取决于如何定义 " 成功 "。

如果成功意味着像 AWS 那样创造一个全新的行业,改变整个科技生态,那么显然,它并不能成为下一个 AWS。芯片行业已经存在了几十年,亚马逊不是在创造新市场,而是在重新分配现有市场的份额。

但如果成功意味着建立一个可持续的、有竞争力的业务,为 AWS 提供成本优势和战略控制权,那么亚马逊已经在这条路上走得很远。

200 亿美元的年化营收,90% 以上的头部客户采用率,Anthropic 和 OpenAI 这样的标杆案例,这些都足以证明 Trainium 的成功。

更重要的是,当你拥有从芯片到数据中心到软件平台的完整堆栈,你就可以针对特定工作负载进行端到端的优化,这是购买通用芯片无法实现的。

从这个意义上说,亚马逊造芯片的故事,不是关于能赚多少钱,而是关于谁掌握控制权。

在 AI 时代,算力就是石油,谁控制了算力的生产和分配,谁就掌握了未来。

亚马逊不想把这个控制权完全交给英伟达,就像它当年不想把云基础设施的控制权交给英特尔一样。

就算到最后,Trainium 不能与英伟达平起平坐,它也已经证明了云巨头有能力挑战芯片巨头的垄断地位。这本身也是一种成功。

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容