MiniMax M3 终于来了，指标很强，但社区炒翻了

文 | AIDeepDive

今天打开手机，原本只想扫一眼股价，结果看到了 MiniMax 股价大跌 15%。

然后赶快去翻了翻新闻，原来是 M3 发布了。

我读了一下 M3 的技术报告，坦白说，真的不差，从各项 benchmark 来看，甚至是惊艳的。

SWE-Bench Pro 59%，超了 GPT-5.5，逼近 Opus 4.7，BrowseComp 83.5 直接把 Opus 4.7 踩在脚下，百万上下文，原生多模态，外加自研 MSA 稀疏注意力架构。

虽然股价一直跟业绩和实力没什么关系，但这两个信息放在一起更诡异了。

我又翻了下 X 上的评论和开发者社区，结果骂声确实比叫好声更响，特别是中文社区。

那确实要聊聊这两级分化了。

先说说指标里的 " 小心思 "

59% 的 SWE-Bench Pro，这个数字本身没什么问题。

SWE-Bench Pro 是目前公认最接近真实软件工程场景的基准，考的是用代码修真实项目里的 bug，还得跑测试验证，不能蒙，含金量是够的。59% 是个实打实的高分。

但翻到 MiniMax 技术报告里，Terminal Bench 2 和 VIBE-Pro 这两个测试有一行注释，它写着，使用了 Claude Code 作为评测脚手架进行测试。 !

这意味着 MiniMax 采用了 Claude Code 的工具链，测自己模型的 Coding 能力，然后拿这个分数去跟 Claude Opus 4.7 做比较。

这个操作我不是很能理解。

我不清楚其他的模型是否也是这样评测的？只有 MiniMax 说了 " 真话 "？又或者只有 MiniMax 是这样的？

我仔细翻了一下，其实 SWE benchmark、Terminal Bench 2 和 VIBE-Pro 都是基于 Claude Code 做的测试。

准确来说，像 Terminal Bench 2 这类需要在环境里连续执行工具调用的 Agent 评测，在当前行业里用脚手架跑是惯例，Claude Code、OpenCode 都是常见选择。

脚手架本身不是问题，问题在于，当你用 A 的框架测 B 的能力，然后对外宣传跟 A 比肩，这样就有点 " 不讲武德 " 了。

模型的原生能力，跟 " 用某个脚手架跑出来的能力 "，是两件事。

用户很难分辨 SWE-Bench Pro 59% 这个数据里有多少是模型能力，有多少是脚手架加成，这就难怪很多人已经完全不信各种评测指标了。

在 MiniMax 官号下面，这样的吐槽比比皆是。

我们来说说 " 开源 " 的诚意

与其他发布的开源模型不同，MiniMax 这次没有公布模型大小。

究竟是一个多大的模型取得了这样的成绩？这让开发者们充满困惑。

其次让很多开发者不满的，是没有公布模型 " 权重 "。官方说法是 " 发布后 10 天内开源 "，模型先 API 上线，权重后面跟上。

这又回到了上面的话题，这种做法充满 " 心机 "。面向一向追求坦诚的程序员来说，这种做法可以理解，但不那么 " 坦荡 "。

为什么这么说？这种安排，更多是商业逻辑上的考虑，我觉得我特别能理解。就是先通过 API 收回一波成本，再开源，无可厚非。

但如果你今天对社区宣传的是 " 开源 "，但又不给权重，社区没有办法在本地环境里验证任何评测数据。所有人只能通过 API 访问模型，既无法复现 benchmark，也无法独立摸清模型底细。

开源社区的核心价值就是 " 可复现、可验证 "。

所以当先宣传开源，再说权重 " 过几天给 "，这两件事放在一起，社区的质疑声也就很自然了。

类似这种

或者这种

最渣心的，还是 Coding Plan 的调整

前两个都还是技术范畴的讨论，Coding Plan 的调整才是骂声最集中的地方。

以前 MiniMax 的 Coding Plan 一直以 " 量大管饱 " 著称。

它是按照请求次数来做模型，限制的是速率，每 5 小时滚动窗口内的请求次数，但没有月度 Token 总量的上限。一个重度开发者，只要不超速，可以持续低速地跑。

有老用户算过，他一个月实际跑下来消耗了三十亿 token，有的甚至五十亿 +，而月费就是那几十块钱。

这是之前的 " 黄金时代 "，每个月无上限地跑，自己控制节奏。

但是，在没有预告的情况下，M3 发布同步推了 Token Plan，把这套规则改了。

改成了什么？按总量来看。Plus 套餐 49 块 6 亿 token，官方说相当于 Claude Pro 5 倍用量，听起来很划算。

但官方细则深究一下，这个 6 亿 token 是按单次调用 50K token 来估算的，折算出来大约是 12000 次调用。

你想想看，M3 支持百万上下文，真正的重度使用场景，单次调用几十万 token 是常态，6 亿 token 一下子就见底了。

更不接受的是原来承诺老用户不受周限额限制，现在却出尔反尔。这怎么可能不炸呢？

官方很快出来回应：

V2EX 上有用户直接把这次和之前的 " 代金券事件 " 并列，说 MiniMax 这是又背刺了一次老用户。

能让用户翻出来历史账单一起算，说明积累的信任是真的在消耗。

说回技术本身，MSA 这个创新有点意思

其实，MiniMax 的这个发布是有点意思的，但都被一系列 " 骚操作 " 盖住了。

特别是 M3 的底层架构创新，我个人觉得还是有一些新东西令人兴奋的。

MiniMax 自研了一个叫 MSA（MiniMax Sparse Attention）的稀疏注意力机制。

传统 Transformer 的注意力计算是 O ( n ) 的，上下文长度翻 10 倍，计算量暴涨 100 倍，这是做长上下文一直绕不开的魔咒。

MSA 的思路是对 KV（Key-Value）做高精度的分块，然后做稀疏化，相比之前 DSA、MoBA 这些方案，它能更精准地覆盖到有用的上下文，而不是随机裁掉一些。

与此相关的是底层算子层面，首创了「以 KV 为外循环去聚合 Q」的计算方式，每个 KV 块只被读一次，内存访问是连续的，速度比开源的 Flash-Sparse-Attention 快 4 倍以上。

实际效果，跟上一代 M2 相比，在百万上下文下，prefilling 阶段加速超过 9 倍，decoding 加速超过 15 倍，单 token 计算量只有上一代的 1/20。

这个方案与之前 DeepSeek 的路径也有所不同。DeepSeek V4 主攻的是 " 混合压缩架构 " 与 " 极低精度计算 " ( CSA + HCA 机制）。

这意味着什么，以前跑百万上下文是奢侈品，现在是真的能用的基础设施了。

从技术路线来看，MiniMax 在长上下文、多模态和 Agent 能力这三块的均衡程度，在国内厂商里确实算突出的。

其他家可能某一块打得很猛，但三个同时达到前沿水位的，M3 是第一个对外宣称的。这个宣称对不对，等独立评测结果出来再看，但方向本身是很清晰的。

最后说几句

真不知道应该怎么理解这次 M3 的发布，是因为沉寂太久，所以太着急？太焦虑了？

模型本身是在进步的，MSA 架构是真创新，长上下文推理效率是实打实提升了，三模态均衡（而且是原生多模态）这件事也确实是难的。

但发布的方式确实是在消耗用户信任，这在争抢开发者的市场里，这番操作让人看不明白。

开源社区的理解很朴素，你说开源就得给权重，你说诚意就别搞文字游戏，你要改价格就得提前说清楚。

现在的局面，骂声和期待同时存在，这本身是个好信号，说明大家还在关注，还有情绪，还没有走人。

就看 MiniMax 接下来这 10 天，权重放出来之后，独立评测会不会把那些指标打回原形了。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

MiniMax M3 终于来了，指标很强，但社区炒翻了

宙世代

一起剪

相关阅读

中美互联网公司的AI提效，都从裁员开始？

百万网红直播号称纯牛肉售卖合成肉卷 承诺假一赔万 被起诉称赔偿过高 最终双方同意调解

推翻主流治幻觉思路：元认知，才是大模型破幻觉的全新解法

OpenAI举行“AI上岗”发布会：股票研究、投行路演都能干

摄像师要失业了 索尼发布AI自动跟拍摄像机：4K60P+20倍变焦

英伟达为何要“再造”PC？

OpenAI自研机器人，是IPO讲故事还是深耕具身智能？

荣信文化：与火山引擎合作 探索内容+AI Token运营模式

英特尔在Computex 2026发布多项AI成果 英伟达Blackwell负责解耦推理系统预填充

消息称英国军方开始使用SpaceX的星盾系统

警惕“AI押题”收割高考焦虑

比亚迪罗忠良：千元级激光雷达已具备普及条件

华擎推出N250M/D5主板：集成N250处理器 无风扇被动散热

埃能捷第二次亮相黄仁勋GTC主题演讲，波浪能项目推进中

IBM计划在未来五年向量子计算领域投资超过100亿美元

最新评论

钛媒体

热门推荐

企业资讯

百万网红直播号称纯牛肉售卖合成肉卷承诺假一赔万被起诉称赔偿过高最终双方同意调解

摄像师要失业了索尼发布AI自动跟拍摄像机：4K60P+20倍变焦

荣信文化：与火山引擎合作探索内容+AI Token运营模式

英特尔在Computex 2026发布多项AI成果英伟达Blackwell负责解耦推理系统预填充

华擎推出N250M/D5主板：集成N250处理器无风扇被动散热