OpenClaw 突然爆火,既是 AI Agent 赛道的一次必然出圈,也是 AI 推理算力市场的一场压力测试。
在 2026 年中关村论坛上,中科曙发布了世界首个无线缆箱式超节点 scaleX40,在此之前,超节点是动辄数百卡甚至千卡规模的庞然大物,包括中科曙光发布的 scaleX640、英伟达的 NVL72、华为的昇腾 384 等。
这些顶级超节点专为超大规模模型训练而生,性能强悍,但部署门槛极高,定制化机柜、复杂的线缆连接、专业的运维团队,动辄数千万甚至上亿的投资,让它们注定只能服务于少数头部玩家,譬如互联网巨头或者大型央国企等。
在超节点的 " 反面 ",是推理市场上传统且主流的 8 卡 GPU 服务器。这类产品部署灵活、成本可控,但在面对快速升级的 AI 推理算力需求时,性能显得有些不足。
"8 卡机在当前来看已经远远落伍了,即便是把互联规模扩展到 16 卡,仍然满足不了模型推理服务发展的步伐。" 中科曙光高级副总裁李斌表示," 支撑 AI 发展的算力基础设施,逐渐从原来的 ' 算力工厂 ' 变成了 'Token 工厂 '。算力系统的主要服务对象,已经从过去支撑模型训练为主,转变到现在以服务于推理为主。"
在训练时代,评价算力系统的核心指标是有多少算力;而在推理时代,更关键的指标变成了 " 能以多经济的成本产出 Token"。

AI 需求分化,推理算力远未满足
从当前市场需求来看,AI 算力结构正在发生分层变化。根据行业机构预测,全球 AI 基础设施投入仍将保持较快增长,但新增需求正逐步从超大规模集群,转向企业级和行业应用场景。
在这一趋势下,算力配置的重点不再单纯追求规模上限,而是更加关注性能、成本与灵活性的平衡。业内普遍共识,几十卡规模已足够满足大多数行业场景模型训练、推理及开发测试的算力需求,这也是兼顾效率与投入的最大公约数区间。
但是,AI 应用层的需求演化太快,包括像 OpenClaw 为代表的 AI Agent 的爆火,在改变传统行业应用的同时,对当下算力供给侧也带来了系统重构的需求。
第一是通信的瓶颈,现在 MoE 模型让通信成为提升算力利用率的核心卡点,尤其是专家分布的不确定性,导致大量跨卡、跨机通信,直接击穿了传统 8 卡服务器的算力架构。
第二是显存的瓶颈,上下文窗口持续扩展,OpenClaw 所需的长上下文记忆能力,也让大显存、KV Cache 的需求日渐激增,这同样是传统 8 卡服务器难以突破的局限。
第三是算力利用率的瓶颈,算力利用率和推理落地成本近乎反比,传统集群普遍存在算力利用率不足的问题,核心挑战不是单纯堆硬件,而是通过硬件架构创新,搭配配套系统工程、优化工程的协同发力,实现系统效能和有效算力的双重提升。
第四则是生态的瓶颈,国产算力生态体系复杂、厂商众多、产业链漫长,产业协作难度不小,这就需要借助开放计算架构,打通芯片、模型、应用等全产业链上下游,打造开放易用、开箱即用、经济普惠的算力底座。
中科曙光希望用 40 卡的 " 标配 " 超节点回应市场。"40 卡这个甜点区,是我们跟各种客户调研摸索出来的。" 中科曙光副总裁李柳表示,当前主流模型的参数规模和使用场景,32-40 卡已经能够覆盖大多数行业需求,同时又能兼顾成本与性能的平衡。

scaleX40 的规模配置,既具备支持大模型训练和推理的能力,又不会带来过重的投入压力,它向下可兼顾 32 卡,满足中小规模训练、推理和开发测试;向上,它可以通过扩展,组成更大规模集群。
李斌算了一笔账:" 传统 5 台 8 卡机器叠加各类成本的投入,与 scaleX40 基本相当,但 scaleX40 可以将训练性能提升 120%,推理性能最高提升至 330%。"
从 DeepSeek 到 OpenClaw,新的算力转折点
"Token 需要算力来做产出,但评价的维度和指标变得更多了。" 李斌认为," 对于普通用户,关注的是响应速度,问了一个问题,它能不能很快反馈回来;对于算力系统的运营者,要考虑能同时支撑多少用户的并发访问,同时满足基本的使用体验。"
智源研究院 AI 框架研发部门负责人敖玉龙也提出," 未来对算力供给方来说,关键指标是如何将算力转换成有效的 Token,而不是无效的 Token。谁能把这个成本降下去,谁才是真正的赢家。"
scaleX40 的设计围绕这些新需求展开。144G 大显存支持长上下文窗口,多级 KV Cache 缓存机制满足推理场景的大显存需求,40 卡高带宽域的一级互联将专家通信的 out-to-out 流量收揽在单个节点内。这些特性都是在控制成本的前提下,最大化单位算力的 Token 产出效率。
无线缆箱式设计也是 scaleX40 一个很大的差异化。传统超节点的一个核心痛点在于部署复杂度。以英伟达 NVL72 为例,其采用铜缆连接方案,机柜之间需要大量的线缆互联,不仅对机房环境要求苛刻,部署周期长,而且后期运维的故障率也居高不下。
scaleX40 的解法和英伟达于今年 GTC 大会公布的最新解决方案相似,通过总线技术实现 Scale-up 扩展,计算节点与交换节点采用无线缆正交架构直接对插。
这一设计带来了多重收益,首先,总线技术性能达到传统 NDR 网络的 10 倍以上,支持内存语义和显存统一编址;其次,一层组网将 P2P 单向时延降至百纳秒以内,相比二层组网时延降低 30% 以上,故障率降低 30%-50%。
其次,scaleX40 采用标准 19 英寸箱式设计,单机高度仅 16U,可以直接放入主流机柜,兼容现有数据中心环境,无需额外改造。
" 过去很多产品要么柜子比较大,要么非标准化,要么机房改造非常复杂。" 李柳说道,"scaleX40 可以放在标准机柜里面,接标准机房的供电和冷却设备,部署和使用门槛大大降低。"
中国电信研究院智算网络技术负责人王子潇也表示:" 以超节点形态提供推理服务,性能比传统单机 8 卡提升约 2.6 倍。超节点的‘开箱即用’能力显著增强,Scale-out 网络的配置复杂度有数量级降低,对于整个行业规模化应用非常有意义。"
更深层来看,scaleX40 的发布也折射出国产算力生态的成熟。从芯片到系统软件,从存储到网络,从算子库到通信库,一条完整的产业链正在形成。正如李斌所言:" 我们在整个国内计算 AI 生态里,从芯片到系统软件,到上层模型和应用,在做垂直的跨层协同,通过垂直方向的耦合和协同去发挥更好的效率。"
当超节点开始以更简单的方式被部署和使用,当千行百业都能以合理的成本获得高端算力能力,中国 AI 的规模化应用,或许才真正迈出了关键一步。(本文作者 | 张帅,编辑 | 杨林)