北京时间 3 月 20 日,AI 编程工具 Cursor 发布了自研模型 Composer 2,宣称是公司首次对基座模型进行 " 继续预训练结合强化学习 " 的成果。发布博客里没提基座模型的来源,措辞像是在说,这是 Cursor 自己从头炼出来的。
不到两小时,一个名叫 Fynn 的开发者在调试 Cursor 的 API 时,截获了 Composer 2 的真实模型 ID,kimi-k2p5-rl-0317-s515-fast。拆开来看,kimi-k2p5 指向 Kimi K2.5,rl 是强化学习(Reinforcement Learning),后面是日期和版本号。


Kimi K2.5 采用修改版 MIT 许可证,明确要求月营收超过 2000 万美元或月活超过 1 亿的商业产品,必须在用户界面上醒目标注 "Kimi K2.5"。Cursor 的年化收入约 20 亿美元,超出这条门槛 8 倍有余。
但就在舆论发酵的同一天,剧情反转了。月之暗面官方账号 @Kimi_Moonshot 发帖,口吻从质疑变成祝贺,称 " 我们很自豪看到 Kimi K2.5 为 Composer 2 提供了基础 ",并澄清 Cursor 通过推理服务商 Fireworks AI 获得了授权使用。


Cursor 为什么 " 失误 "
这也不是 Cursor 第一次被发现 " 底座来自中国 "。2025 年 11 月 Composer 1 发布时,社区通过 tokenizer 分析推测它与 DeepSeek 高度一致,推理时偶尔还会输出中文。当时 Cursor 同样没有回应。
从 DeepSeek 到 Kimi,Cursor 自研模型的底座换了一轮,都指向同一个事实,全球编程能力最强的底座模型,出自中国的开源社区。
Cursor 不愿公开底座来源,背后有一个更深层的结构性问题。Cursor 一直以来依赖 Anthropic 和 OpenAI 的模型来驱动产品,但这两家公司现在正亲自下场做编程工具,Claude Code 和 Codex 都在迅速铺开,不少开发者已经开始迁移。Cursor 面临的悖论是,它必须依赖顶级模型来满足用户需求,但模型厂商同时也是它的直接竞争对手。如果没有自己可控的模型底座,Cursor 就永远受制于人。
从这个角度看,选择中国开源模型微调几乎是一个必然的逻辑,既够强,又不会变成自己的竞争对手。但这同时也是 Cursor 不愿公开讲的原因,2025 年它是 AI 编程赛道最炙手可热的明星,估值冲到 293 亿美元,3 月 12 日 Bloomberg 报道新一轮融资目标估值约 500 亿美元。在这个节骨眼上承认核心模型来自中国开源社区,对估值叙事并不友好。
Composer 2 在 Cursor 自己设计的 CursorBench 上拿到了 61.3 分,超过了 Claude Opus 4.6 的 58.2 分,不过这毕竟是一份自家出题自家考的成绩单。反过来看,如果一个基于开源模型微调的产品能在编程任务上和巨头打得有来有回,这件事本身可能比 Cursor 的披露失误更有意思。Hugging Face 联合创始人 Cl é ment Delangue 就此评价说," 中国开源现在是塑造全球 AI 技术栈的最大力量 "。
而对月之暗面来说,这场风波的结果几乎是一次完美的品牌事件,从 " 被侵权方 " 到 " 合作方 ",在全球开发者社区里刷了一轮存在感,最后还让 Cursor 亲口确认 " 选了 Kimi K2.5 因为它最强 "。
Kimi 的 " 黄金一周 "
往前倒推几天,Kimi 刚经历了一个密度极高的曝光周期。
3 月 16 日,月之暗面发布了一篇纯架构层面的技术论文 "Attention Residuals"(注意力残差),试图替换掉 Transformer 架构中一个自 2015 年 ResNet 以来就几乎没人动过的基础组件,残差连接。过去每一层的输出和输入直接相加、无差别传递,Kimi 团队让每一层可以 " 回头看 ",动态选择从前面哪些层提取信息。实验显示训练效率提升约 25%,推理延迟增加不到 2%。论文的共同一作之一是一位 17 岁的深圳高中生,和 Kimi 的关键研究者苏剑林、张宇并列。

第二天,3 月 17 日,黄仁勋在 GTC 2026 的 Keynote 中多次提及中国开源模型。Kimi K2.5 代替了去年的 DeepSeek ,成为黄仁勋用来对全世界展示推理重要性的时候,那个作为标杆的模型。
3 月 18 日,杨植麟更是直接登上 GTC 的分论坛演讲。他是嘉宾名单中唯一来自独立大模型创业公司的代表,与特斯拉 AI 总监、DeepMind 核心架构师同列。演讲现场也座无虚席,他系统披露了 Kimi K2.5 背后的技术路线,将模型进化归纳为 Token 效率、长上下文和智能体集群三个维度。
而在 DeepSeek 彻底走红之前,在 GTC 上做分享最多的中国开源模型团队,曾经是 DeepSeek。
论文、GTC、Cursor,三件事在一周内接连落地,且这些亮眼的高光里都有与 DeepSeek" 时代更替 " 的意味:曾经是 DeepSeek 每篇论文都被全球技术社区和 KOL 大佬追捧转发,曾经 GTC 几乎是 DeepSeek 的 " 非官方 " 发布会,甚至 Cursor 以前 " 悄悄套壳 " 的也是 DeepSeek ,而一瞬间,全部变成了月之暗面 Kimi。
站在 DeepSeek 的位置上
这让很多人开始意识到,Kimi 正在占据 DeepSeek 在全球 AI 社区中的位置。
DeepSeek R1 在 2025 年初的爆发重塑了整个行业的认知,让 " 中国 AI" 从一个模糊的概念变成了具体的、可以运行的模型权重。但自那之后,DeepSeek 相对沉寂了。社区期待已久的 V4/R2 一直没有发布,V3.1、V3.2 等版本持续在更新,但那种 " 一出手就改写规则 " 的冲击感暂时没有重现。
Kimi 恰好踩进了这个窗口期。
2025 年春节后,Kimi 日活一度承压,月之暗面砍掉了大笔营销预算,闭门做模型。7 月,Kimi K2 发布,万亿参数 MoE 架构。K2 发布后在 Hugging Face 上线首日下载量超过平台上所有其他模型,Anthropic 联合创始人 Jack Clark 评价其为 " 全球最好的开源权重模型 "。
2026 年 1 月底,K2.5 发布,原生多模态加 Agent 集群架构,在多项 Agent 评测中拿下全球开源最佳。OpenClaw 热潮到来后,Kimi Claw 迅速上线。据报道,K2.5 发布不到一个月,Kimi 近 20 天累计收入就超过了 2025 年全年。Stripe 数据显示,Kimi 个人订阅用户 1 月支付订单环比增长 8280%。
资本层面的节奏也在加快。2025 年底 5 亿美元 C 轮,投后估值 43 亿美元;2026 年 2 月超 7 亿美元,估值升至 100 亿美元;3 月中旬新一轮 10 亿美元正在推进,估值已到 180 亿美元。同期港股上市的智谱和 MiniMax,市值在 3 月中旬分别站上了 3300 亿和 3800 亿港元的量级,月之暗面还没进二级市场,以当前 AI 板块的溢价看,上市后的想象空间不小。

Kimi K2 的架构直接脱胎于 DeepSeek V3,MLA 注意力机制、MoE 专家混合框架都是 DeepSeek 首创或率先大规模验证的。Kimi 的崛起本身就是 DeepSeek 技术影响力的一种继续。DeepSeek 的开源策略也更为彻底,采用纯 MIT 许可证,没有任何营收门槛限制,这让它在全球开发者生态中积累了极高的渗透率。Kimi 的修改版 MIT 许可证在商业使用上多了一层约束,这次 Cursor 事件就是一个例子。
在 DeepSeek 相对安静的这段时间里,Kimi 接过了 " 中国 AI 开源代表 " 的话筒。无论是黄仁勋的演讲台、Cursor 的模型底座,还是学术论文和开发者社区,Kimi 正在填补一个需要持续有新鲜内容的叙事空间。
而且 Kimi 做的也不只是出模型,Attention Residuals 论文触碰的是深度学习十年没有实质性变化的底层结构,这和 DeepSeek 当年做 MLA 是一个路数,都是在尝试重新定义行业的基础设施。
中国 AI 开源的故事,正在从 " 一个 DeepSeek" 变成一个不停有新的夺走光环的玩家出现的故事,这和硅谷的节奏越来越像,OpenAI 之后是 Google,Google 之后 Anthropic,然后循环。
由中国的开源模型们交替接管全球开发者们的时间线,模型能力螺旋式上升的同时,话语权不旁落:等到 DeepSeek 新模型出现时,Kimi 的注意力会不会被夺走;MiniMax、Qwen、智谱、阶跃以及同样来势汹汹新入局的小米们的新工作,会不会再突然夺走它们俩的主角位置,这些都在让这种螺旋交替继续下去,而这对每个中国 AI 参与者都是好事。
