
作者 | 董必政
编辑 | 丁萍
头图 | AI 制图
DeepSeek-V4 终于来了。
4 月 24 日,全新系列模型 DeepSeek-V4 预览版本正式上线,并同步开源。
DeepSeek-V4 开创了一种全新的注意力机制,在 token 维度进行压缩,结合 DSA 稀疏注意力(DeepSeek Sparse Attention),实现了全球领先的长上下文能力,并且相比于传统方法大幅降低了对计算和显存的需求。
可别小瞧了,DeepSeek-V4 大幅降低了对计算和显存的需求。
妙投认为,这将直接削弱英伟达 GPU 的优势。值得注意的是,DeepSeek-V4 还优先适配国产芯片厂商。
换句话说,别高估英伟达的护城河,也千万别低估 DeepSeek 正在掀起的这场架构革命。关键不在 " 谁替代谁 ",而在 AI 产业链的利润分配、部署路径和投资逻辑,可能正在变。
一、戴着 " 镣铐 " 起舞
过去两年,AI 大模型主要看的是训练,拼的是算力。
在一定程度上,AI 基础大模型的竞争,本质就是 GPU 算力基础设施的竞争。谁能买到更多高端 GPU,谁能堆出更大的集群,谁就更有机会做出更强的基础模型。
然而,由于美国通过出口管制,禁止英伟达 H100/H200 等顶级芯片对华销售。此外,台积电先进制程等已经被美国卡死了,国产 GPU 卡与英伟达卡仍有一定的差距。
" 国内 GPU 厂商都是戴着 " 镣铐 " 与英伟达同台竞技的 ",一位 GPU 企业人士曾向妙投形容。
有意思的是,就是在这样的逆风局下,这两年中美大模型的差距开始逐步缩小,甚至接近拉平。
2023 年底,中美的顶级模型在各大维度的差距还在 20%-30% 之间徘徊。4 月 14 日,斯坦福大学 HAI 实验室发布 2026 年度《AI 指数报告》,这份长达 423 页的行业权威报告显示,中美大模型性能差距已收窄至 2.7%,基本实现技术追平。
妙投认为,如果把中美 AI 大模型性能差距看作结果,那么英伟达 GPU 并非决定性因素。
这一方面,归结于国产芯片崛起及中国电力基础设施的完备。
黄仁勋在最近访谈中表示,"AI 本质上是并行计算问题,中国完全可以通过堆叠更多芯片来弥补单颗芯片的制程差距,中国有那么多能源,如果愿意,完全可以把更多芯片组合在一起,即使制程落后几个纳米。"
实际上,不少国内 GPU 厂商已实现了万卡集群,以弥补单卡算力的短板。比如:摩尔的夸娥万卡集群、沐曦的曦源一号 SADA 万卡集群。
另一方面,则归结于 DeepSeek 为代表的大模型企业脱颖而出。
DeepSeek 用软件上的前瞻性设计,主动去适配和赋能国产硬件,为国产芯片铺平道路。
比如:DeepSeek-V3 验证了 FP8 在大规模模型训练的可用性,在不增加额外开销的情况下扩大了模型训练规模且不影响模型训练质量。
打个比方,过去,要完成一个复杂的 AI 计算任务,需要几台巨大、精密且昂贵的德国进口机床(代表英伟达的高精度 GPU)。而现在,DeepSeek 通过改变任务的加工流程(即改变数据格式),使得这个任务可以被几十台小巧、简单且便宜的国产机床(代表国产 GPU 的计算单元)组成的流水线高效完成。
即便如此,英伟达 GPU 仍让海外大模型在训练上更胜一筹。
但从产业演进看,大模型训练只是第一阶段。大模型做出来之后,真正决定商业化速度和产业渗透深度的,是推理。尤其是,Openclaw、Hermes 为代表的 Agent 爆火之后。
二、英伟达赢了训练,但推理才刚开始
训练和推理是两种不同的模式。
Claw 类 Agent 爆发,长上下文记忆能力就是核心导火索。
以前的 AI 只会聊天、转头就忘,鱼的记忆;而 Claw 能记住一切、持续干活、越用越懂你,记忆让它从 " 玩具 " 变成 " 工具 "。
当上下文越来越长、Agent 记忆越来越深、工具调用越来越频繁的时候,GPU 的显存会被 KV cache(记忆缓存)撑爆,大模型的推理质量就会下降。
因此,推理爆发的第一个瓶颈,不是算力不够,是 " 记忆 " 和 " 计算 " 抢同一块显存。
对国产 GPU 而言,算力(峰值 TFLOPS)不是最大瓶颈,是显存。而英伟达 GPU 在显存技术上拥有领先其他厂商 1-2 年的代际优势。
英伟达的主流数据中心 GPU(如 A100、H100)的单卡显存容量通常标配为 80GB,而最新一代 Rubin GPU 搭载 8 颗 36GB 的 HBM4 内存颗粒(总容量 288GB),显存总带宽提升 13 TB/s。
国产芯片受限于先进制程,显存容量和带宽都更低,仍需突围。比如:昇腾 910B 的显存容量为 64GB。
按照此前梁文锋发布的论文,这次 DeepSeek-V4 应采用了独特的 Engram 架构,而 Engram 恰好解决的是显存容量瓶颈。
DeepSeek-V4 的做法是,把模型里那些 " 死记硬背 " 的静态知识抽出来,塞进一个巨大的内存表里;推理时,CPU 负责 " 查字典 "(检索知识),GPU 只负责 " 想逻辑 "(计算推理)。
这两者是完全重叠执行的。当 GPU 在算上一个词的逻辑时,CPU 已经把下一个词所需的知识搬到了门口。由于延迟被这种并行架构彻底掩盖,AI 单位时间内的产出效率呈几何级数提升,GPU 显存不再被 KV cache 撑爆。
比如:一个需要 80GB 显存才能跑的长上下文推理任务,在 Engram 架构下,可能只需要 8GB 显存就能跑。
这意味着国产 GPU 在显存受限的情况下,也能完成同样的任务,而英伟达引以为傲的 HBM 显存稀缺性面临崩塌。同时,CPU 也将迎来爆发。
此外,更值得关注的是,DeepSeek-V4 即将发布,这次没有按行业惯例给英伟达早期测试权限,把提前适配的机会全部留给了华为和寒武纪。目标是从 CUDA 生态整体迁移到华为 CANN 框架。
虽然英伟达的 CUDA 生态短期不会被取代,但已经出现了裂缝。这也意味着 DeepSeek 无论在开源生态还是国产自主上依然有着其强力的生态位。
据媒体报道,为应对基于该模型云服务上线需求,阿里巴巴、字节跳动和腾讯等科技巨头已提前下单华为新一代 AI 芯片,订单规模达数十万颗。
可以预见的是,这次即将发布的 DeepSeek-V4,也将给 AI 投资带来新的预期。
三、新的投资预期
从投资角度看,妙投认为 DeepSeek-V4 将直接利好两大方向:国产算力及 AI 应用。
1. 国产算力
如果 DeepSeek-V4 确认是完全基于国产算力训练出来的,那这将是国产芯片史上的 "DeepSeek 时刻 "。这证明了即便没有 H100,我们也能跑出世界一流的大模型。
这带来的边际变化是大超预期的。这个预期,不亚于 Google 凭借自研的 TPU 芯片训练出 Gemini。要知道,Google 已成为巴菲特的伯克希尔持仓标的。
此前,市场对国产算力的预期大多停留在 " 自主可控 " 的宏大叙事逻辑上,而 V4 将把逻辑推向 " 好用且必需 " 的商业逻辑。
这次受益的最大方,便是国产 GPU 厂商。华为、寒武纪已经明牌了。其他国产 GPU 厂商也将积极适配 DeepSeek 大模型。从确定性来看,以华为、寒武纪为代表的国产芯片、国产服务器及相关配套厂商的受益确定性最高。
展望 2026 年,寒武纪、壁仞科技、天数智芯等 5 家已上市 AI 芯公司 Wind 一致预期收入同比增长约 120% 到约 257 亿人民币。
此外,从弹性上来看,沐曦股份预期 2026 年将扭亏为盈,有望成为继寒武纪之后另一家盈利的 GPU 厂商,从而实现商业闭环。
因此,国产算力将为 AI 投资继续关注的重点。
2.AI 应用
除了适配国产算力的推理需求,DeepSeek-V4 可能通过创新架构(mHC 和 Engram 技术)进一步降低训练和推理成本,加速中国 AI 价值链创新周期。
同时,DeepSeek 有望帮助全球大语言模型和 AI 应用企业加速商业化进程,从而缓解日益沉重的资本开支压力。
随着 Engram 架构落地,GPU 显存需求降低 90%,推理的硬件成本会大幅压缩。这对终端部署(边缘 AI 推理)是重大利好。
此外,今年 1 月以来,A 股 AI 应用板块表现低迷,核心痛点是 " 大模型吞噬软件 " 的恐惧。AI 应用已经进入了 " 杀逻辑 " 的阶段。
但 DeepSeekV4 的发布可能改善这个情绪。对于国内 A 股的应用公司来说,大模型更像是一种廉价的基础设施,有利于优化成本。
妙投认为,与核心数据绑定较为紧密的 AI 应用企业、相关云服务厂商,也将有望迎来边际改善。
小结
英伟达依旧是训练大模型最强的基础设施,这一点没有悬念。短期内,它在高端训练 GPU、CUDA 生态和集群能力上的优势,依然很难被替代。
不可忽视,英伟达的优势正在逐步被 DeepSeek" 曲线救国 " 式地瓦解。
DeepSeek-V4 率先适配国产芯片以及创新正在试图证明,AI 推理不一定只能靠最贵的 GPU 继续往前推,系统级优化、软硬协同和本地化部署,同样可以打开一条新路。而国产算力又能往前再走一步。
不要高估了英伟达,也不要低估了 DeepSeek 和国产算力。
