中科曙光发了个“标配版”超节点，AI 推理算力的未来形态？

OpenClaw 突然爆火，既是 AI Agent 赛道的一次必然出圈，也是 AI 推理算力市场的一场压力测试。

在 2026 年中关村论坛上，中科曙发布了世界首个无线缆箱式超节点 scaleX40，在此之前，超节点是动辄数百卡甚至千卡规模的庞然大物，包括中科曙光发布的 scaleX640、英伟达的 NVL72、华为的昇腾 384 等。

这些顶级超节点专为超大规模模型训练而生，性能强悍，但部署门槛极高，定制化机柜、复杂的线缆连接、专业的运维团队，动辄数千万甚至上亿的投资，让它们注定只能服务于少数头部玩家，譬如互联网巨头或者大型央国企等。

在超节点的 " 反面 "，是推理市场上传统且主流的 8 卡 GPU 服务器。这类产品部署灵活、成本可控，但在面对快速升级的 AI 推理算力需求时，性能显得有些不足。

"8 卡机在当前来看已经远远落伍了，即便是把互联规模扩展到 16 卡，仍然满足不了模型推理服务发展的步伐。" 中科曙光高级副总裁李斌表示，" 支撑 AI 发展的算力基础设施，逐渐从原来的 ' 算力工厂 ' 变成了 'Token 工厂 '。算力系统的主要服务对象，已经从过去支撑模型训练为主，转变到现在以服务于推理为主。"

在训练时代，评价算力系统的核心指标是有多少算力；而在推理时代，更关键的指标变成了 " 能以多经济的成本产出 Token"。

图片来自 AI 生成

AI 需求分化，推理算力远未满足

从当前市场需求来看，AI 算力结构正在发生分层变化。根据行业机构预测，全球 AI 基础设施投入仍将保持较快增长，但新增需求正逐步从超大规模集群，转向企业级和行业应用场景。

在这一趋势下，算力配置的重点不再单纯追求规模上限，而是更加关注性能、成本与灵活性的平衡。业内普遍共识，几十卡规模已足够满足大多数行业场景模型训练、推理及开发测试的算力需求，这也是兼顾效率与投入的最大公约数区间。

但是，AI 应用层的需求演化太快，包括像 OpenClaw 为代表的 AI Agent 的爆火，在改变传统行业应用的同时，对当下算力供给侧也带来了系统重构的需求。

第一是通信的瓶颈，现在 MoE 模型让通信成为提升算力利用率的核心卡点，尤其是专家分布的不确定性，导致大量跨卡、跨机通信，直接击穿了传统 8 卡服务器的算力架构。

第二是显存的瓶颈，上下文窗口持续扩展，OpenClaw 所需的长上下文记忆能力，也让大显存、KV Cache 的需求日渐激增，这同样是传统 8 卡服务器难以突破的局限。

第三是算力利用率的瓶颈，算力利用率和推理落地成本近乎反比，传统集群普遍存在算力利用率不足的问题，核心挑战不是单纯堆硬件，而是通过硬件架构创新，搭配配套系统工程、优化工程的协同发力，实现系统效能和有效算力的双重提升。

第四则是生态的瓶颈，国产算力生态体系复杂、厂商众多、产业链漫长，产业协作难度不小，这就需要借助开放计算架构，打通芯片、模型、应用等全产业链上下游，打造开放易用、开箱即用、经济普惠的算力底座。

中科曙光希望用 40 卡的 " 标配 " 超节点回应市场。"40 卡这个甜点区，是我们跟各种客户调研摸索出来的。" 中科曙光副总裁李柳表示，当前主流模型的参数规模和使用场景，32-40 卡已经能够覆盖大多数行业需求，同时又能兼顾成本与性能的平衡。

scaleX40 单节点集成 40 张 GPU，总算力超过 28PFLOPS（FP8 精度），HBM 显存容量超过 5TB，访存带宽超过 80TB/s。系统可靠性提升至 99.99%。

scaleX40 的规模配置，既具备支持大模型训练和推理的能力，又不会带来过重的投入压力，它向下可兼顾 32 卡，满足中小规模训练、推理和开发测试；向上，它可以通过扩展，组成更大规模集群。

李斌算了一笔账：" 传统 5 台 8 卡机器叠加各类成本的投入，与 scaleX40 基本相当，但 scaleX40 可以将训练性能提升 120%，推理性能最高提升至 330%。"

从 DeepSeek 到 OpenClaw，新的算力转折点

"Token 需要算力来做产出，但评价的维度和指标变得更多了。" 李斌认为，" 对于普通用户，关注的是响应速度，问了一个问题，它能不能很快反馈回来；对于算力系统的运营者，要考虑能同时支撑多少用户的并发访问，同时满足基本的使用体验。"

智源研究院 AI 框架研发部门负责人敖玉龙也提出，" 未来对算力供给方来说，关键指标是如何将算力转换成有效的 Token，而不是无效的 Token。谁能把这个成本降下去，谁才是真正的赢家。"

scaleX40 的设计围绕这些新需求展开。144G 大显存支持长上下文窗口，多级 KV Cache 缓存机制满足推理场景的大显存需求，40 卡高带宽域的一级互联将专家通信的 out-to-out 流量收揽在单个节点内。这些特性都是在控制成本的前提下，最大化单位算力的 Token 产出效率。

无线缆箱式设计也是 scaleX40 一个很大的差异化。传统超节点的一个核心痛点在于部署复杂度。以英伟达 NVL72 为例，其采用铜缆连接方案，机柜之间需要大量的线缆互联，不仅对机房环境要求苛刻，部署周期长，而且后期运维的故障率也居高不下。

scaleX40 的解法和英伟达于今年 GTC 大会公布的最新解决方案相似，通过总线技术实现 Scale-up 扩展，计算节点与交换节点采用无线缆正交架构直接对插。

这一设计带来了多重收益，首先，总线技术性能达到传统 NDR 网络的 10 倍以上，支持内存语义和显存统一编址；其次，一层组网将 P2P 单向时延降至百纳秒以内，相比二层组网时延降低 30% 以上，故障率降低 30%-50%。

其次，scaleX40 采用标准 19 英寸箱式设计，单机高度仅 16U，可以直接放入主流机柜，兼容现有数据中心环境，无需额外改造。

" 过去很多产品要么柜子比较大，要么非标准化，要么机房改造非常复杂。" 李柳说道，"scaleX40 可以放在标准机柜里面，接标准机房的供电和冷却设备，部署和使用门槛大大降低。"

中国电信研究院智算网络技术负责人王子潇也表示：" 以超节点形态提供推理服务，性能比传统单机 8 卡提升约 2.6 倍。超节点的‘开箱即用’能力显著增强，Scale-out 网络的配置复杂度有数量级降低，对于整个行业规模化应用非常有意义。"

更深层来看，scaleX40 的发布也折射出国产算力生态的成熟。从芯片到系统软件，从存储到网络，从算子库到通信库，一条完整的产业链正在形成。正如李斌所言：" 我们在整个国内计算 AI 生态里，从芯片到系统软件，到上层模型和应用，在做垂直的跨层协同，通过垂直方向的耦合和协同去发挥更好的效率。"

当超节点开始以更简单的方式被部署和使用，当千行百业都能以合理的成本获得高端算力能力，中国 AI 的规模化应用，或许才真正迈出了关键一步。（本文作者 | 张帅，编辑 | 杨林）

小龙虾，众生相

钛媒体昨天

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

中科曙光发了个“标配版”超节点，AI 推理算力的未来形态？

宙世代

一起剪

相关阅读

科技行业掀大规模裁员潮！员工成AI训练燃料：被裁前最后一刻还在帮助公司优化AI

AMWC：医美行业六大发展趋势

中科宇航力箭二号首飞成功，我国首款CBC构型火箭有何亮点？

追赶台积电！Rapidus提速1nm研发 力争差距仅6个月

更了半年还没新功能：微软终于承认Win11推送机制有问题！承诺正在改

中国科学家再突破！首次成功合成新核素锫-235、镅-231

见真章，定未来：2026年AI趋势展望

周鸿祎：一人公司的真相 和你想的完全不一样

Kimi没有DeepSeek的命

小龙虾，众生相

于东来回应退休：只是表面退休了 实际还是不退

苹果推送iOS 26.5、iPadOS 26.5等多系统首个测试版

苹果深夜大乌龙！国行AI意外上线又紧急撤回 原因曝光

大疆DJI Mimo更新：五大功能升级 解锁华为海豚通信

最新评论

钛媒体

热门推荐

企业资讯

热门订阅 换一批

GMIF创新观察

医线Insight

中保新知

银莕财经

挖贝网

局市

追赶台积电！Rapidus提速1nm研发力争差距仅6个月

周鸿祎：一人公司的真相和你想的完全不一样

于东来回应退休：只是表面退休了实际还是不退

苹果深夜大乌龙！国行AI意外上线又紧急撤回原因曝光

大疆DJI Mimo更新：五大功能升级解锁华为海豚通信

热门订阅换一批