国产 AI 芯片，进击 3D 堆叠

文 | 半导体产业纵横

AI 大模型正以惊人的速度迭代。存储与带宽的增速，远远追不上模型膨胀的脚步。这就是困扰行业已久的 " 内存墙 " 问题。更棘手的是，当前主流的 2.5D 封装（如台积电 CoWoS）技术是单一平面扩展，布局布线资源受限，集成密度低，在 AI 高算力的场景下，芯片面积无法进一步压缩。

当横向扩展难以为继，" 向上生长 " 的 3D 堆叠技术就成为了必然选择。对于国产 AI 芯片而言，3D 堆叠技术可以在先进工艺产能受限、高端 HBM 供给不畅的产业现实下，3D 堆叠提供了一条以 " 空间换性能 "、绕过部分工艺封锁的可行道路。

封装技术从 " 平面铺砖 " 到 " 立体盖楼 "

在先进封装领域，2.5D 封装通过在硅中介层上集成多个裸 die，实现了芯片之间的高速互连和短距离通信。硅中介层通常采用硅通孔（TSV）技术实现垂直互连，具有高密度、高性能的互连特性，可以大大提高系统的整体性能。

3D 堆叠技术通过芯片堆叠或封装堆叠，例如采用硅通孔或混合键合技术，以增加功能、提高集成密度、降低封装成本，并因缩短互连长度而有助于提升运行速度。通过 3D 堆叠，可以将 2.5D 封装中原本平铺在不同芯片上的功能单元，如计算逻辑、存储阵列、I/O 接口在垂直维度上进行物理叠层与电气互连，从而突破平面集成的物理极限。

3D 封装与 3.5D 封装便采用了 3D 堆叠技术。3D 封装技术通过将多个裸芯片（Bare Die）进行垂直堆叠，并借助硅通孔和微凸块等先进互连技术实现层间通信，从而突破了传统平面集成的物理限制。这种架构极大地缩短了电子传输路径，在显著降低传输延迟与功耗的同时，实现了极高的互连带宽和封装密度。3.5D 封装则是在 3D 垂直堆叠的基础上，再引入 2.5D 硅中介层（Interposer）进行横向扩展，形成 " 立体 + 平面 " 的复合架构。

当前国内主流 AI 芯片，如寒武纪、昆仑芯、壁仞科技、天数智芯等基本都通过 2.5D 封装技术将 GPU/AI 计算芯粒与 HBM 显存并排互连，利用硅中介层（Interposer）和 RDL（重布线层）构建高密度互连网络。但这种显存外挂方案带宽普遍仅 1 – 4TB/s，且受限于平面面积，集成密度和互连带宽已接近物理极限。

国际巨头：3D 堆叠和 3.5D 已迈入量产阶段

国际半导体巨头早已布局 3D/3.5D，部分产品已进入量产交付阶段。

2023 年，AMD 发布了 Instinct MI300 系列 AI 加速器，这是一款采用 3.5D 封装技术并实现量产的芯片产品。AMD 将其技术描述为 3D 堆叠 GPU 和 I/O 芯片通过混合键合融合，并与标准 2.5D 封装相结合。AMD 的 3.5D 封装方案融合了台积电的 CoWoS（2.5D 硅中介层）和 SoIC（3D 混合键合）技术，通过 Cu-Cu 混合键合将 GPU/CPU 芯片垂直堆叠在 I/O 芯片之上，再依托 CoWoS 硅中介层与 HBM3 内存并排互连。

2024 年 12 月，博通公司首次公开发布了业界首个 3.5D XDSiP（eXtreme Dimension System in Package）封装平台。其结合了 2.5D 技术和采用 Face-to-Face（F2F）面对面技术的 3D-IC 集成。该平台的核心是 Face-to-Face ( F2F ) 堆叠技术，采用无凸块混合铜键合 ( HCB ) 直接连接上下芯片的顶层金属，实现了上下两层芯片顶部金属层的直接连接。相比传统的面对背（F2B）技术，F2F 无需依赖硅通孔，可让信号连接数量增加 7 倍，将芯片间界面的耗电量降低 90%，并减少 3D 堆叠内运算、内存和 I/O 元件间的延迟时间。2026 年已交付业界首款基于 XDSiP 的 2nm 定制计算 SoC 给富士通，用于 AI 超算集群。

英特尔的的 EMIB 3.5D 封装技术将 EMIB 2.5D（嵌入式硅桥横向互连）与 Foveros Direct 3D（混合键合垂直堆叠）结合，支持多种芯片异构灵活集成，兼容 UCIe 行业标准。英特尔数据中心 GPU Max 系列 SoC 便是利用 EMIB 3.5D 打造的英特尔有史以来最复杂的量产型异构芯片，内含超千亿个晶体管、47 个主动模块和 5 个制程节点。

最近高通的高带宽计算（HBC）技术采用创新的专用近存计算架构，通过 3D 堆叠硅基解决方案将计算与超高速带宽内存相融合，解决 AI 计算中的数据搬运瓶颈。搭载第一代 HBC 技术的 AI250，单卡可实现业界领先的 133TB/s 带宽速率，与采用 LPDDR5X 的 AI200 相比，有效内存带宽提升 18 倍；搭载第二代 HBC 技术的 AI300 进一步实现阶梯式性能跃升，有效内存带宽较 AI200 提升 54 倍。

国产 AI 芯片集体选择 3D 堆叠

面对国际巨头在 3D 堆叠和 3.5D 封装上的领先布局，以及国内先进工艺产能和高端 HBM 供给受限，国产 AI 芯片厂商正积极探索通过 3D 堆叠技术，将存储单元和计算单元垂直集成。

紫光集团的紫弦架构以 3D DRAM 为核心，首创 3.5D 异质异构集成方案，存储带宽可达 30TB/s。其 PNM 近存计算模式下访存延迟最多降低至 1/18，模拟仿真显示同等算力下 Token 吞吐率较英伟达 B200 系列高出 1.5-2 倍，且可基于国内供应链规模化量产。

清微智能下一代 AI 芯片采用 3.5D 异构堆叠，实现可重构计算芯粒与 DRAM 存储芯粒的三维垂直堆叠，通过 " 计算芯粒 + 存储芯粒 " 的垂直集成，在先进工艺受限条件下，以架构创新换取性能跃升。其第二代 3D 可重构芯片突破性采用 3D 存算一体 + 四芯 Chiplet 集成技术，将传统芯片 2D 平面单车道传输模式，升级为 " 算力 4 车道 +4 层存储高架 " 的立体架构，大幅提升数据吞吐效率与算力密度，在性能、能效、灵活性上形成显著优势。

算苗科技旗下面向大模型推理的 3D TokenPU 芯片 A4E 已于 6 月 15 日正式流片，实现依托国产供应链、采用 3D 混合堆叠架构的大模型专用处理器落地。第一代产品 A4E 将 8 层存储晶圆垂直堆叠在计算逻辑晶圆上，通过硅通孔（TSV）与凸点（bump）技术实现微米级互联，将传统芯片间的 " 毫米级 " 传输距离压缩两个数量级，带来 16TB/s 的超大访存带宽，有效缓解数据饥饿问题。

云天励飞宣布正在研发的推理芯片引入 3D 堆叠存储架构：采用 3D 堆叠存储架构，以获得更高带宽与更低访问时延，突破 " 内存墙 "，提升推理效率。

前身为快手集团的异构计算与芯片事业部的凌川科技下一代芯片已于今年 4 月完成流片，采用全国产 3D 堆叠技术，首创 3D 近存架构，针对散热、一致性、可靠性等行业关键痛点做了专项优化设计。其首款芯片 SL200 已累计销售近十万颗，部署至快手、阿里云、百度云、B 站等互联网公司，覆盖快手 99.7% 直播转码业务，稳定服务 7 亿用户。

3D 堆叠需要跨国从实验室到量产鸿沟

尽管 3D 堆叠前景广阔，但 3D 堆叠的工程化难度远超传统封装。

首先是热管理与散热。在传统的 2D 平面架构中，裸片产生的热量可以直接传导至顶部的均热板（Heat spreader）和散热器中。但在 3D 架构中，热量必须克服重重阻碍，垂直穿透多层硅片、TSV 阵列、聚合物底部填充胶（Underfill）以及微凸块界面。对于 2.5D 集成结构，传统的空气冷却系统在大约 300 瓦的总功率下仍能维持运作；但当系统转入真正的 3D 垂直堆叠时，一旦封装总功率超过 350 瓦，基于空气的散热将完全失效，必须强制引入液冷系统与高性能的热界面材料。

其次是混合键合工艺与良率。无凸点混合铜键合（HCB）要求

第三是 EDA 工具与设计协同。3D 设计数据量爆炸性增长，IC 设计师与封装工程师需深度协同；现有 EDA 工具难以同时处理热、信号、电源完整性多维优化，亟需发展热 - 电 - 机械协同设计平台。目前国际 3 家头部 EDA 企业均有针对 3D 堆叠芯片设计的一些工具支持，而反观本土 EDA 企业专门做 3D 堆叠芯片设计的全流程设计工具还比较少，有些企业可提供针对 3D 堆叠芯片仿真环节的部分点工具，但涉及到布局布线、多芯片验证、Multi-Die DFT 测试等工具，国内仍存在较大空白。

第四是测试与可靠性。芯片 3D 堆叠封装技术的复杂性和高密度使得测试和可靠性成为了一个重要的挑战。需要开发新的测试方法和设备，以确保封装体的质量和可靠性。同时，还需要对封装体进行长期的可靠性评估，以确保其在各种环境下的稳定工作。

最后是组装复杂性与供应链。物理组装涉及不同厚度、不同热膨胀系数裸片的精密对准，需要密集的热机械认证工作；设计分析数据量远超标准封装。这也导致芯片 3D 堆叠封装技术的制造成本相对较高，需要不断优化制造工艺和降低制造成本，让芯片 3D 堆叠封装技术能够更广泛地应用于实际产品中。

后摩尔时代，晶体管微缩边际效益递减，先进封装已成为 " 超越摩尔 " 的关键。对于国产 AI 芯片而言，在先进制程和高端 HBM 进口受限的产业现实下，单纯追赶国际巨头的 2.5D+HBM 路线已难以形成差异化竞争力。从紫光的紫弦架构到清微智能的 3.5D 异构堆叠，国产厂商正在证明：当平面扩展触及物理极限，向上生长，用三维维度重新定义芯片的集成方式或许正是打破 " 内存墙 " 与 " 面积墙 "、在全球 AI 算力竞赛中实现弯道超车的关键所在。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

国产 AI 芯片，进击 3D 堆叠

宙世代

一起剪

相关阅读

中信建投：基于智驾大行业拐点 产业链细分赛道robotaxi、智驾芯片、激光雷达均有望充分受益

全新培优AI家教加持！学而思发布旗舰学习机T6系列

万元志愿方案背后：免费AI一键生成的骗局

华为最强平板！MatePad Pro Max海外版开售：预装HarmonyOS 4.3

OpenAI研发高效推理方案：模型运行成本降低50%

凯德石英：公司产品主要供应通美晶体的磷化铟、砷化镓等产线使用

鸿蒙版QQ迎来版本更新 新增13项功能优化用户体验

DDR5内存太贵 科技巨头主动捡垃圾：魔改DDR4成本暴降87%

甲骨文宣布JDK 27起停止支持Intel版Mac 告别x64平台

Anthropic推出Claude Sonnet 5 低价策略冲刺IPO

半导体研究机构看好英伟达 Rubin平台推动下半年营收超预期

康卡斯特拆分NBC环球，意味着媒体并购浪潮或将开启

专为9950X3D2定制！技嘉40周年纪念主板发布：DDR5轻松超频至11400MT/s

Codex，1 个月吃掉 150GB 流量，写满 4T 硬盘，疯了吗？

下单送金马！七彩虹MAG-60马年限定磁轴键盘发售：首发价2199元

最新评论

钛媒体

热门推荐

中信建投：基于智驾大行业拐点产业链细分赛道robotaxi、智驾芯片、激光雷达均有望充分受益

鸿蒙版QQ迎来版本更新新增13项功能优化用户体验

DDR5内存太贵科技巨头主动捡垃圾：魔改DDR4成本暴降87%