马斯克亲自点赞，Kimi 动了十一年没人敢碰的东西

文 | 字母 AI

科技博主 Avi Chawla 在 X 上发了一条长帖，详细拆解了月之暗面 Kimi 团队刚刚发布的一篇技术报告。

帖子发出后不久，马斯克本人在下面回复了一句：" 月之暗面做出了令人印象深刻的结果 "（Impressive work from Kimi.）

马斯克在 AI 领域的表态向来以挑剔著称，没少骂过 Anthropic 和 OpenAI，甚至曾直言说 Anthropic 的图标像是某种人体器官。

他自己的 xAI 最近还在经历大规模重组，多位华人联合创始人离职，Grok 的表现也不尽如人意。

可就在这个节骨眼上，他主动对一家中国 AI 公司的技术论文表示认可，多少有些出人意料。

说回被马斯克点赞的这个东西，其实是有点抽象的，因为它压根不是一个模型。

Kimi 团队提出了一种新的方式，试图替换掉 Transformer 架构里一个自 2015 年以来就几乎没人动过的基础组件。

这是一篇纯粹的架构层面的技术论文。

虽然说这篇论文的影响，未必会被普通用户感知到，可实际上，它触碰的是整个深度学习的基石。

月之暗面到底改了什么

要理解这篇论文在做什么，得先搞清楚一个背景。现代大语言模型，无论是 GPT、Claude，还是国内的豆包、DeepSeek，哪怕是 Kimi 自己的 K2.5，其底层架构都是 Transformer。

Transformer 之所以能训练到几十层甚至上百层而不崩溃，都是因为一个叫 " 残差连接（Residual Connection）" 的机制在起作用。

残差连接的原理其实很简单。

每一层网络在做完自己的计算之后，把自己的输出和输入加在一起，然后传到下一层去再做计算。这样做的好处是，梯度在反向传播时可以沿着一条 " 高速公路 " 直达底层，不会因为层数太深而消失。

这个设计来自何恺明在 2015 年参与的 ResNet 论文，后来被 Transformer 原封不动地继承了下来。

但这时候就有一个不大不小的问题，这种 " 加法 " 是完全平等的。

第一层的输出和第四十层的输出，在最终的隐藏状态里享有同等的权重，都是 1。没有任何机制去判断哪一层的信息更重要、哪一层的贡献可以被忽略。随着层数增加，隐藏状态的数值会线性增长，早期层的信息逐渐被稀释，后面的层想要产生影响就必须输出更大的数值，这反过来又加剧了不稳定性。

就像咱们所有人拉个微信群，一起讨论晚上吃什么，每个人的发言权重完全一样，不管谁说的有道理谁在瞎扯，最后群主只能把所有消息从头到尾读一遍，这就导致他越往后翻越记不住前面说了啥。

这个现象在学术上被称为 "PreNorm 稀释 "。

Kimi 团队注意到，这个问题和早年 RNN 面临的困境有一种结构上的对称性。

RNN 是在时间维度上做固定权重的累加，每个时间步的信息被等权地压缩进同一个隐藏状态，导致长距离依赖难以捕捉。后来 Transformer 用注意力机制替代了 RNN 的这种线性累加，让模型可以根据内容动态地决定该关注序列中的哪些位置，这才有了后来的一切。

两者的区别在于，RNN 就像上课，老师讲到哪你就听到哪，只能从头听到尾，没记住的要么看笔记，要么再次从头来。Transformer 则是录播网课，可以随时翻回去看之前最重要的部分。

但在深度维度上，同样的问题一直存在，却没有人用同样的思路去解决。每一层的输出仍然是被等权相加的，模型没有能力根据当前输入去选择性地从某些层提取信息、忽略另一些层。

Kimi 团队表示，标准残差连接本质上是 " 深度维度上的线性注意力 "，他们要做的，是把它升级为 " 深度维度上的 softmax 注意力 "。

于是他们提出了一个 " 理想版 " 的方案，叫做全注意力残差（Full Attention Residuals）。

具体做法是给每一层赋予一个可学习的查询向量，这个向量会对之前所有层的输出做一次注意力计算，产生一组归一化的权重。

然后当前层的输入不再是之前所有层输出的简单求和，而是按照这组权重的加权组合。权重是输入相关的，也就是说，不同的 token 在经过同一层时，可能会从不同的历史层中提取不同的信息。

那我们还是用前面微信群的例子。现在群主不用从头到尾翻聊天记录了，有个助手帮他标出 " 这几条最值得看 "，不同的话题还会标出不同的重点消息。

理想丰满现实骨感，全注意力残差这个方案其实 " 不靠谱 "。

大规模训练时，模型通常会使用流水线并行和激活重计算来节省显存，这意味着之前层的输出不会被保留在内存里。

如果要做全注意力，就需要把所有层的输出都存下来并在流水线的不同阶段之间传递，内存和通信开销都会变得不可接受。

为了解决这个问题，Kimi 团队又提出了块注意力残差（Block Attention Residuals）。

思路是把所有层分成若干个块，每个块内部仍然使用传统的残差连接做求和，但块与块之间使用注意力机制来做选择性聚合。这样需要存储和传输的不再是每一层的输出，而是每个块的汇总表示，内存占用从 O ( Ld）降到了 O ( Nd ) ，其中 N 是块的数量，通常只有 8 个左右。

这就相当于是把刚才那个微信群分成了八个小组，每组先内部讨论出一个结论，群主只需要看八条小组总结就行。

在此基础上，他们还做了一系列工程优化。

比如跨阶段缓存消除了流水线并行中的冗余传输，两阶段推理策略通过在线 softmax 把跨块注意力的计算分摊到各个块的处理过程中。最终的结果是，注意力残差作为标准残差连接的替代品，训练时的额外开销很小，推理时的延迟增加不到 2%。

Kimi 团队又做了两个实验。

一是 scaling law 实验，验证这个改进在不同模型规模下是否一致有效。结果显示，注意力在所有计算预算下都优于基线，其效果相当于用 1.25 倍的计算量训练出的基线模型。

二是 Kimi 拿自己的大模型上做了实战验证。模型参数量为 480 亿，用超过一万亿个词的数据做了完整的预训练。然后在科学问答、数学推理、代码生成、综合知识等一系列主流测试中，加了块注意力残差的版本全面超过了没加的版本。

从训练动态的分析来看，块注意力残差确实缓解了 PreNorm 稀释问题。各层输出的幅度不再随深度线性增长，而是保持在一个相对稳定的范围内；梯度的分布也更加均匀，也不再会出现浅层梯度过大、深层梯度过小的失衡现象。

除此以外，论文中还做了一个统一的结构化矩阵分析，证明了标准残差连接和之前的各种变体（比如 Highway Networks、DeepNet 的 scaled residuals 等）本质上都是深度维度上的线性注意力的特例。

简单来说就是，自 2015 年 ResNet 以来，在残差连接这个板块，没有任何实质性的变化。而 Kimi 的这篇论文，是第一个既有理论依据，又能大规模实际部署且低成本的方案。

马斯克也正是因为这个结论，才亲自下场点赞 Kimi。

融资、争议和马斯克的那个赞

月之暗面正处在一个微妙的时间节点上，那就是上市。

2025 年 12 月底，月之暗面完成了 5 亿美元的 C 轮融资。投后估值 43 亿美元。两个月后，月之暗面完成超 7 亿美元的 C+ 轮融资，由阿里、腾讯、五源资本等老股东联合领投，投后估值突破 100 亿美元。

到了 3 月中，月之暗面最新投前估值已上升至 180 亿美元，新一轮 10 亿美元融资正在推进中，3 个月内估值实现超 4 倍增长。

实际上月之暗面最近的收入增长得很快，Kimi K2.5 模型发布不到一个月，累计收入就超过了 2025 年全年总收入。

根据全球支付平台 Stripe 的数据，Kimi 个人订阅用户的支付订单数在 1 月环比增长了 8280%，2 月又环比增长了 123.8%，已经进入 Stripe 全球榜单前十。

但融资顺利并不意味着没有争议。

就在几天前，OpenClaw 创始人彼得 · 斯坦伯格公开对月之暗面的 Kimi Claw 产品提出了质疑。事

情的起因是，月之暗面此前推出了 OpenClaw 的云端一键部署服务 Kimi Claw，它的逻辑有悖于 OpenClaw 的设计理念。

有用户在 X 上询问这个产品是否值得尝试并 @了斯坦伯格，斯坦伯格的回应很直接：他们有没有把安全文档作为必读项展示给用户？

斯坦伯格的核心关切在于，OpenClaw 的逻辑是 " 本地优先 "。agent 运行在用户自己的设备上，数据不经过任何第三方。驱动它的大模型只提供操作指令，不触碰用户数据。

但 KimiClaw 的做法恰恰相反，它把数据搬到了云端，也就是月之暗面自己的服务器里。在安全和隐私层面，这两种模式的风险等级完全不同。

斯坦伯格对 KimiClaw 的质疑在社区中产生了实际影响。

最初询问斯坦伯格的这位 X 用户随后发文表示，鉴于斯坦伯格提到的安全性问题，他暂时不会使用这个产品。

对于正在高速融资的月之暗面来说，来自 OpenClaw 创始人的公开批评，多少会在海外技术社区中制造一些负面情绪。

然后马斯克的那条回复出现了。

虽然这两件事是风马牛不相及的，但在舆论场上，它们会不可避免地被放在一起解读。

一边是 OpenClaw 创始人对月之暗面产品的安全质疑，另一边是马斯克对月之暗面研究论文的公开认可。

对于正在进行新一轮融资的月之暗面来说，后者的时机几乎不能更好。在资本市场的叙事逻辑里，这种来自顶级人物的认可，往往比任何分析报告都更有说服力。

当然了，不应该过度去解读马斯克的一条推文。他在 X 上的互动频率极高，对各种技术话题都会随手点评，一句 "impressive" 并不意味着他会投资月之暗面或者在 xAI 中采用月之暗面的方法。

但不管怎么说，马斯克那条回复发出去之后，很多原本不关注架构研究的人，也开始去翻这篇论文了。一个十一年没人碰过的组件被重新打开，接下来会发生什么，谁也不知道。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

马斯克亲自点赞，Kimi 动了十一年没人敢碰的东西

宙世代

一起剪

相关阅读

曝华为MatePad Edge焕新升级：搭载麒麟X90+微泵液冷

软通华方发布“龙虾一体机”：双路华为CPU＋四路华为GPU

详解悟空：阿里 ATH 成立第一炮，给千万企业打造数字员工

周鸿祎内部谈“龙虾”：它是如何“杀死”软件的？

腾讯云智能体开发平台推出“企业级OpenClaw”解决方案ADP Claw

Windows内存又要遭殃！微软力挺Electron AI应用：称无需原生代码

把工作扔给一头骡子，三天后发现它比「牛马」还靠谱

马斯克回应xAI落后：今年底追平头部AI企业 2029年遥遥领先

NVIDIA创造全新Groq 3 LPU：500MB SRAM高速缓存 7倍带宽碾压HBM4

性能最激进的Air手机！红魔11 Air极光银开售：国补价3199元起

英伟达连发7款芯片；阿里设立Token事业群

谁在“漂白”中国人的鸡爪？ 3·15晚会起底黑色产业链

ServiceNow迎来升级，为何它有望成为软件领域的赢家

以内容触动情绪，以情绪撬动生意：2026综艺营销新变局

华沿机器人IPO：在内卷与亏损的夹缝中，赌一个具身智能的未来

最新评论

钛媒体

热门推荐

企业资讯

热门订阅 换一批

AI价值官

热门订阅换一批