关于ZAKER 合作
钛媒体 25分钟前

百芯大战

请输入图说

一年前,我们在《DeepSeek 掀起算力革命,英伟达挑战加剧,ASIC 芯片悄然崛起》一文中,更多的是看好 ASIC 带来类似博通和晶圆代工的产业机会。

一年后的今天,ASIC 的发展速度远超预期。尤其近半年以来,ASIC 甚至逐渐成为 AI 竞争的胜负手:国内外大厂开年以来股价表现最好的分别是百度、谷歌和阿里。

谷歌 TPU+ 自研模型 + 云 + 内部应用的王炸,已经让其立于不败之地;国内互联网大厂,近期被重估的只有自研 ASIC 芯片拆分独立 IPO 的百度(计划拆分昆仑芯 IPO)和阿里(计划拆分平头哥 IPO)。

如今,ASIC 早已不只是单纯的产业趋势,更成为 AI 巨头必炼的内功。

01 ASIC 趋势比预期还要猛

1.AI 投资规划越大,ASIC 优势就越明显

ASIC(Application Specific Integrated Circuit,专用集成电路)与 GPU 的核心差异,在于 ASIC 是针对特定算法和应用的 " 定制化优化 ",而 GPU 则是适配多场景的 " 通用型选手 "。

每个大厂都有自己独特的应用、模型、云和 SaaS,ASIC 能精准匹配这些专属需求,同时具备更低的成本与功耗优势——这也是我们去年看好其在推理时代爆发的核心原因。

当前 AI 军备竞赛愈演愈烈,10 万美元 / 颗的 GPU 已让大厂不堪重负(英伟达 FY2025 年整体毛利率达 75.5%,净利率 57%,单颗 GPU 成本不足 3 万美元)。头部厂商的 AI 资本开支已逼近千亿美元,甚至需要通过融资、租赁外部算力等方式填补缺口。

性价比更高的 ASIC 因此变得更为重要性:在 AI 算力向推理端倾斜、数据中心成本控制诉求升级的背景下,ASIC 芯片凭借显著经济性,正逐步打破 GPU 垄断格局。

谷歌自研芯片的成功,无疑更是行业的一针强心剂。所以近期,超大规模云服务商都开始尝试摆脱对英伟达的依赖,加速构建自己的芯片护城河,以追求极致的 TCO(总拥有成本)和供应链安全。

图:GPU 与 ASIC 比较资料来源:西南证券

2.AI 专用芯片迈过 10 亿美元经济生死线

理论上,所有领域的芯片都该走向专用化——专用芯片的适配性与效率最优,但能否落地,关键在于下游市场能否支撑高昂的自研成本。

当前 2nm 芯片流片成本已达 7 亿美元,加上团队搭建费用 3 亿美元,自研门槛高达 10 亿美元,这需要超 100 亿美元的下游市场规模才能覆盖成本。

●成功的代表是手机,每年全球近 5000 亿美元的市场,自研主控 SoC 做的最好的是苹果和华为,不仅降低了成本,更重要的是提升了手机性能,支撑溢价。

●但在比如汽车智驾领域,,由于市场空间并不够大,主机厂自研并不具备经济性,最终仍是英伟达、地平线这样的企业占据主流。

数据中心市场 AI 芯片单颗价值非常高,只需要有数百万颗出货量即可突破经济生死线;显然 2025 年开始,一个大厂内部采购的 AI 芯片数量就轻松超过 100 万颗,容量已经完全能满足流片和高昂的招聘费用。

仍以谷歌为例,Techinsight 数据显示,其 2023 年自用 TPU 就超 200 万颗,按年 20 亿美金研发成本计算,单颗分摊成本仅几千美金。

经济性的释放,直接驱动数据中心 ASIC 出货量持续攀升。据芯智讯援引 DIGITIMES 数据,ASIC 出货量将进入加速通道,2027 年将突破 1000 万颗,接近同期 GPU 1200 万颗的水平。

出货量激增将同步带动市场规模扩容,AI 用 ASIC 有望快速成长为千亿美金赛道(对应单颗价值 1 万美元左右,仅为英伟达 GPU 的 1/5-1/10)。作为大厂 ASIC 核心合作方,博通给出更乐观预期:2027 年大客户 ASIC 可服务市场将达 600-900 亿美元;Marvell 也预测,2028 年定制芯片将占数据中心加速计算市场 25% 的份额。

图:可服务 AISC 市场规模估算资料来源:Marvell

02 GPU 和 ASIC 之争继续,结论是英伟达难垄断

先说结论:在高速增长、供不应求的算力需求这一大背景下,英伟达 GPU 作为基石的作用仍不可替代,但其份额将逐渐被 ASIC 蚕食

我们将在长期看到长期二者共存态势:小型模型主导场景更利好 GPU 的灵活性,超大型模型持续增长则为 TPU 提供增长空间。

具体原因下面展开。

1. 英伟达的领先,现在靠生态、产业链优先供应

英伟达 GPU 是当前最昂贵的计算加速器,适配各类 AI 场景,客户粘性强,因为有两大优势。

英伟达明面上最大的优势在于算法生态:CUDA 生态与开发者习惯形成强壁垒、同时英伟达 NVLink 和 InfiniBand 长期主导 GPU 互联。

所以中小模型与研发场景长期仍将以 GPU 为主;在大模型训推中,CUDA 生态仍领先其他方案至少一年半的时间。

2. 另外一个在暗处的优势是产业链优先支持英伟达。

就像即使设计水平一样,苹果的芯片也至少领先其他手机厂商一年,因为台积电最先进的芯片产能,苹果是包圆的。

同样,英伟达由于出货量最大,是产业链优先支持的芯片厂,如:

● 代工产能优先:英伟达是台积电 3nm 产能的优先合作伙伴,而谷歌等其他厂商在 CoWoS 封装、3nm 芯片产能上面临竞争劣势。

● HBM 优先锁定:全球仅 3 家 HBM 供应商(三星、海力士、美光),2026 年产能已售罄,2027 年仍可能供不应求,美光已明确表示不会因需求增加额外扩产,导致非英伟达客户产能得不到保障。

我们最新了解到谷歌 TPU 在 2026 年上半年有超过 50% 的产能缺口导致难大规模交付、微软 Maia 200 也难产,都是由于产业链产能限制。

3. 但以上问题,都可以靠时间得到解决。

生态上:

●谷歌 TPU 在 AI 计算年支出超 10 亿美元超大型模型部署场景中已经有成本优势了,所以将持续渗透大厂内部市场;

●此外,UALink、Ultra Ethernet 等开放标准正在崛起,有望打破英伟达对互联的垄断。据测算,在 10 万节点集群中,Ethernet 架构相较英伟达 InfiniBand,总拥有成本 TCO 最高可节省 20%。

另外随着扩产,预计上游产能在 2027 年逐步放量,供应链瓶颈开始缓解。同时 2027 年训练与推理芯片资本开支占比将趋近 50:50,给 ASIC 更大施展自己的舞台。

图:未来互联技术选择变多资料来源:锦缎研究院总结

4. 更大的变局是谷歌 TPU 撕开英伟达垄断的裂缝

如果说去年初我们对 ASIC 到底是否能分得一杯羹还存在犹豫的话,谷歌技术和商业闭环上的成功,已经彻底打消了我们的疑虑。

谷歌 TPU 的核心竞争力,首先源于技术层面的差异化优势。

自 2016 年首款 TPU V1 发布并用于数据中心推理以来持续进行迭代,其最新的 TPU v7 搭载 Inter-Chip Interconnect 技术,可支持最多 9000 个节点的超大规模集群,信号损耗低。

硬件配置上,TPU 采用 HBM3E 内存,虽在容量和单系统算力上不及英伟达产品,但功耗与以太网成本更具优势,FP4 精度下每 PFLOPS 每小时成本仅 0.40 美元,性价比突出。

5. 实战表现是最好的验证。

谷歌 Nano Banana 等模型 100% 基于 TPU 完成训练与推理,也支撑其内部语音搜索、图片搜索等核心功能,成本低于 GPU,谷歌内部性能表现优异,在部分场景优于 GPU。

同时成功走向外部市场,尤其是最新的 V7 版本:

● Meta,计划 2026 年租用 TPU,并从 2027 年开始购买超 100 万颗、价值数十亿美元的 TPU,用于 Llama 模型部署,通过以太网与功耗优化实现 15%-20% TCO 节省;

● OpenAI 达成合作协议,将部分推理工作负载从英伟达芯片迁移至 TPU ;

● Anthropic 已承诺在 GCP 集群中使用 TPU 训练模型,2025 年 10 月签署 100 万 TPU 订单;

● Apple 2024 年就采购 TPU 用其进行 LLM 训练;

●潜在客户:部分新兴云厂商(如 Fluidstack、TeraWulf)因 GCP 提供付款担保而尝试采用 TPU。

图:谷歌 TPU 有清晰的路线图资料来源:浙商证券

英伟达的真正挑战者,并非 AMD、英特尔等同行,而是谷歌这样的跨界玩家。

我们调研了解到,单颗 TPU 芯片售价预计 1 — 1.5 万美元,定价瞄准 AMD,意图通过低价挤压竞争对手,倒逼英伟达降价。仅 Meta 一家就可能为谷歌带来 10 亿美元以上的收入。

乐观测算,到 2027 年,TPU 可能抢占英伟达 15% 的训练市场份额:现有英伟达用户迁移虽需时间,但新增工作负载更易转向 TPU。Semianalysis 更是预测 2027 年谷歌 TPU(v6-v8)合计出货量达到 600 万颗。

这一预测并不激进 —— 2027 年推理场景占比将达 50%,ASIC 将承担其中 50% 的工作负载,对应 ASIC 在算力芯片中的渗透率超 20%,而谷歌 TPU 拿下其中一半份额(当前份额 75%)难度不大。

6. 来自 EDA 的产业链验证

上述趋势,得到了芯片行业最上游 EDA 领域的双重验证。

作为整个芯片行业最上游的 EDA 行业,Synopsys 和 Cadence 最新的指引为:未来 EDA 行业增长核心来自苹果、谷歌、特斯拉等 " 系统公司 ",而不是第三方芯片设计厂;具体来说,这类系统性客户占当前 EDA 营收的 45% 左右,未来 2-3 年将超 50%。

这意味着,大厂自研芯片,并通过外售摊薄成本(如谷歌、百度、阿里)的模式,将从今年起加速推进。

03 谷歌示范效应下,大厂纷纷豪赌自研 ASIC

1. 成本集约、降低功耗符合第一性原理

在《马斯克说 " 中国将最终赢得 AI 竞争 ",有什么深意?》一文中,我们提到,当前 AI 用电还只占美国用电的 5% 左右,到 2030 年 AI 耗电占到 10%,到 2035 年占比接近 20%,未来更加缺电。

除了增加发电容量外,降低单芯片功耗也同样关键。ASIC 对于大厂而言,不仅仅是降低成本,还能降低宝贵的额功耗。

GPU 作为通用计算芯片存在 30-40% 功能冗余,必定导致功耗浪费,而 ASIC 可针对特定工作负载优化,降低成本与功耗,成为大厂的必选。

主流 ASIC 在算力性能上已基本对齐英伟达 H 系列 GPU,但能效比优势突出,同代际芯片具体指标对比:

●算力方面,英伟达 H100 FP16 算力为 990 TFLOPS,谷歌 TPU V6e 为 918 TFLOPS,AWS Trainium2 为 667 TFLOPS;

●功耗上,H100 达 700W,TPU V6e 仅 383W,Trainium2 为 500W;

●互联带宽上,H100 以 900GB/s 领先,TPU V6e 为 448GB/s,Trainium2 为 512GB/s。

2. 北美大厂近两年加速

为搭上 ASIC 这班高速列车,海外云厂 CSP 纷纷加码自研 ASIC,并依托外部芯片设计合作伙伴简化落地难度,核心合作厂商包括 Marvell、Broadcom、Alchip 等。

这是由于大厂仅具备部分自研能力,例如谷歌、亚马逊可完成前端设计(代码编写、综合),但物理层技术(如 SerDes、交换机、相干光模块)存在高壁垒,需依赖外部成熟产品与 IP,后端验证、流片等体力活也需外部支持。

图:合作的 ASIC 厂商优劣势对比资料来源:锦缎研究院总结

谷歌已深耕 TPU 十年,前文已有详细讨论;其他北美大厂则是近两年加速跟上,动作开始变大。

亚马逊:Trainium2 于 2023 年发布,由 16 颗 Trainium2 芯片支持的 EC2 Trn2 实例,性价比相较 GPU-based 实例高出 30-40%,目前已服务超 200 位客户,覆盖运营商、航空、零售等领域,2024 年出货量年增率突破 200%,2025 年预计增长 70% 以上,但项目有些延迟,未来将重点聚焦 Trainium3芯片,投入公有云基础设施及电商平台 AI 应用。

Meta:MTIA 系列专为推荐推理任务设计。2024 年 MTIA v2 采用台积电 5nm 工艺,TDP 仅 90W 显著降低功耗,可高效处理社交媒体内容推荐、广告优化等内部任务;2025 年推出 MTIA v3,将搭载 HBM 内存,2026 年有望实现放量。

微软:2024 年公布 Maia 100,采用台积电 5nm 工艺与 CoWoS-S 技术,当前承载内部 10%-20% 工作载荷,聚焦大规模 AI 工作负载的成本与效率优化;随着 Maia 300 量产与 workload 适配深化,目标定制 ASIC 相较英伟达件成本节省 80%,能耗成本降低 50%,长期 TCO 优化达 80%;

OpenAI:2024 年曝光首颗芯片,将采用台积电 A16 工艺,专为 Sora 视频应用打造,且与博通达成 100 亿美元合作,联合开发专属推理芯片,目标 12 个月内交付。

特斯拉:计划 2025 年底推出下一代 Dojo 2 芯片,性能有望媲美英伟达 B200,核心服务于 Dojo 训练计算机项目。xAI 则是正式启动 x1 芯片自研,计划今年量产。

图:海外 CSP 巨头自研 ASIC 时间表资料来源:申万宏源

图:北美厂商 ASIC 芯片及合作伙伴梳理资料来源:东吴证券

3. 国内大厂:芯片项目重要程度跳升

国内头部大厂自研 ASIC 的时间早于北美同行,但此前多为小打小闹。在谷歌 TPU 验证可行性、英伟达芯片受限的双重驱动下,ASIC 已上升为核心战略,并已取得阶段性成果。

百度昆仑芯:

昆仑芯拥有 15 年技术积累,一直锚定 AI 训练与推理加速的核心场景,兼容 CUDA 生态,目前已迭代至第三代。

昆仑芯 2024 年出货量 6.9 万片、营收 20 亿,2025 年预计出货 13 万片、营收冲 35 亿。对外客户,实现万卡集群部署并中标中国移动 10 亿订单,实际上外部客户是 2026 年高增的主要来源,已进入中国移动、南方电网、比亚迪、招商银行、地方智算中心等供应链。

阿里平头哥 :

核心产品线包括倚天、含光、PPU 三类,其中 PPU 作为大算力芯片是市场焦点,又分为两款主力产品:高端款单颗算力超 300T、显存 96G,采用先进制程,仅以整机形式销售,2024-2025 年合计出货估计 30 万张,低端款采用中芯国际 12nm(N+1)工艺,由灿芯负责后道 IP 及接口设计,单价不超 2-3 万元,2026 年 Q1 启动流片量产,预计出货 50 万颗。

销售模式以内部消化为主,对外销售需搭配阿里云方案,无独立适配场景,2026 年 PPU 整体出货预计 80 万颗。

字节跳动:字节布局 CPU 与 ASIC 两类芯片,自研进程落后于平头哥、昆仑芯,当前采取 " 外采低端芯片 + 推进海外研发 + 国内先进制程排队 " 策略,2026 年将完成海内外先进工艺设计,等待产能流片,计划 2026 年前实现量产。

腾讯:后发追赶,自研紧迫性较强,终止对燧原投资并重启 " 紫霄 " 自研项目,以数倍薪酬挖角顶尖人才,需求集中在游戏、AIGC、数字孪生等领域。

但相对海外巨头,国内大厂面临更大的挑战,体现在几个方面:

●主业挣钱不如海外大厂,股东对于内部芯片业务亏损不满,所以阿里百度都开始分拆上市平衡短期亏损与长期战略投入;

●先进产能资源更加稀缺,国内由于美国的封锁,中芯国际等先进制程产能供不应求;

●配套 AI 芯片服务厂类似博通、Marvell,由于制裁原因也很难为国内企业提供定制服务,国内相关的芯原股份、翱捷科技等在技术积累、IP 沉淀、经验上都有比较明显的差距。

04 结语:AI 竞争锚点之变

AI 产业的竞争,已从模型算法的比拼,延伸到算力底层的硬核博弈。ASIC 芯片凭借极致的能效比与成本优势,正在重塑全球 AI 格局,成为巨头们构筑竞争壁垒的核心抓手。

没有自研 ASIC 芯片,在这场更烧钱、更考验综合实力的 AI 竞赛中,终将失去话语权。芯片已经内化成生态的一环了,我们将在此后的文章中进一步展开。

对于国内企业而言,这既是顺应产业趋势的必然选择,也是直面挑战的艰难征程。尽管在盈利能力、先进产能、产业链配套等方面面临着比海外企业更严峻的考验,但自研 ASIC 已是无法回避的战略方向。

百度昆仑芯的稳步起量到阿里平头哥的分拆提速,都宣告 2026 是国内大厂加速转向之年。对此我们是偏乐观的,在技术攻坚与生态构建的持续投入下,国内企业终将在全球 ASIC 赛道占据一席之地。

本文系基于公开资料撰写,仅作为信息交流之用,不构成任何投资建议。

相关标签

觉得文章不错,微信扫描分享好友

扫码分享