雷峰网消息,2 月 3 日,云天励飞首次对外公布未来三年的大算力 AI 推理芯片战略布局,将实现百万 Tokens 推理成本降低 100 倍以上的目标。
推理算力需求暴涨,是在行业中实际发生的结构性变革。
德勤发布的报告指出 2026 年推理算力将占整体 AI 算力的 66%,推理优化芯片市场在 2026 年将增长至超 500 亿美元。字节旗下豆包大模型 Token 使用量从 2024 年的单日 0.12 万亿,到 2025 年 12 月已突破 50 万亿。
多个行业信号共同指向一个趋势:推理侧竞争已不再单纯是 " 把模型做得更强 " 的参数竞赛,而是 " 让应用跑得更久、更稳、更便宜 " 的效能竞赛,单位推理成本与交付效率已成为规模化落地的最大门槛。
" 在推理芯片领域,依托国内丰富的应用场景、稳定可靠的电网和快速迭代的开源模型,我们具备弯道超车的能力,因此训练追赶、推理超车是未来 5 年我们的策略,而 GPNPU 则是 AI 推理芯片架构的最优解。"云天励飞董事长兼 CEO 表示。

GPNPU 架构定义未来三年芯片路线:直指英伟达旗舰级算力产品
推理时代的胜负手不在单点指标,而在系统级协同:既要承接主流软件生态,又要在推理负载下实现更优能效与更低时延。
云天励飞确立了 GPNPU 技术路线,并提出了 "GPNPU=GPGPU+NPU+3D 堆叠存储 " 的核心公式,兼顾通用计算的 " 通用性 " 与 NPU 的 " 高效性 "。

在推理能效层面,NPU 能够实现更高的计算效率和能效比,面对大模型推理这种高度结构化、可被体系化优化的负载,专用化设计带来的能效优势更容易转化为真实成本优势,这也是国际厂商持续加码专用路线的重要原因。
同时,针对行业公认的 " 内存墙 " 瓶颈,云天励飞正深度研发 3D 堆叠存储及更前沿的互连技术,以提升带宽与能效,降低推理时延。
" 通过引入 3D memory 架构,我们可以实现 10 倍于当前训练芯片 HBM 带宽的性能,其访问时延将达到 10 纳秒级别,以实现极致的推理能效。"云天励飞 CTO 李爱军表示。
在架构工程与产品化路径上,云天励飞提出 " 算力积木 " 架构,通过 Chiplet 扩展与互连思路,将标准计算单元进行模块化封装与组合,让算力像搭积木一样按需扩展,形成从边缘到更大规模推理的弹性产品形态。
其次是面向推理的系统级优化能力,公司拒绝单纯的 " 芯片参数竞赛 ",而是主张把 " 模型怎么跑得更省 " 沉淀到架构里,围绕真实业务负载持续迭代,逐项击穿推理链路中的成本与时延瓶颈,最终形成可复制交付的解决方案。
" 基于对大模型推理的理解,我们构造了 PD 分离系统架构,针对大模型 prefill 和 decode 阶段不同的计算特点进行优化设计,在芯片的微架构层面上,我们同时对于 Attention 及 FFN 的计算的特点进行细粒度的分析,从而进一步的去提升我们的推理效率。"李爱军说到。

2026 至 2028 年,云天励飞规划推出三代迭代芯片,节奏清晰对标国际主流厂商。
第一代超节点 P 芯片将于今年推出,其将面向百万长上下文的场景进行极致的 prefill 推理优化,在算力上紧跟 H100。
2027 年,云天励飞将研发第一代超节点 D 芯片,以此在 decode 推理方面实现超低延时,而其算力性能将达到 B200 相当的水平。
2028 年,云天励飞将研发第二代超节点 D 芯片,致力于实现毫秒级的推理时延,从而使得 prefill 和 decode 的性能大幅提升,在算力层面,将对标英伟达的下一代 Rubin 芯片。

算力芯片的竞争已步入新周期,多家公司登陆资本市场之外,还有大量创业公司逐渐崭露头角。
竞争白热化的行业境况下,陈宁指出,支撑公司跨越周期的,是长期积累构筑的商业护城河。云天励飞的核心竞争力,已形成技术、产能、生态、市场、资本五大维度的协同。
GPNPU 的架构创新,以及三年大算力芯片规划的发布,实现了技术与产品的闭环。
在此之下,产能成为落地的关键。
针对行业普遍关注的供应链安全问题,云天励飞高级副总裁、CFO 兼董秘邓浩然特别强调,公司目前是国内屈指可数手握充足国产产能保障的企业之一,这一战略储备为后续芯片的大规模量产与交付提供了极高的确定性。
此外,云天励飞受到资本市场的高度关注,具备足够的资金实力以支撑芯片研发的长期消耗,同时在顶级芯片人才的招揽上,也能够走在前列。

"1" 指聚焦于 AI 大算力推理芯片,"4" 则是四大事业部。作为生态构建者,四大事业部旨在解决芯片从 " 研发生产、优化打磨到市场推广 " 的核心难题。其中,政企事业部作为基石,将凭借深厚的行业经验,将战略重点转向推理设备和智算中心的建设,以实现业务运转的协同闭环。
据悉,云天励飞正规划打造区域级 " 千卡集群 "。
未来,云天励飞将以 GPNPU 架构为核心,大力推进云端大算力强化软硬协同与存储体系攻坚,实现百万 Tokens 推理成本降低超 100 倍的目标。
