关于ZAKER Skills 合作
钛媒体 40分钟前

MiniMax M3 终于来了,指标很强,但社区炒翻了

文 | AIDeepDive

今天打开手机,原本只想扫一眼股价,结果看到了 MiniMax 股价大跌 15%。

然后赶快去翻了翻新闻,原来是 M3 发布了。

我读了一下 M3 的技术报告,坦白说,真的不差,从各项 benchmark 来看,甚至是惊艳的。

SWE-Bench Pro 59%,超了 GPT-5.5,逼近 Opus 4.7,BrowseComp 83.5 直接把 Opus 4.7 踩在脚下,百万上下文,原生多模态,外加自研 MSA 稀疏注意力架构。

虽然股价一直跟业绩和实力没什么关系,但这两个信息放在一起更诡异了。

我又翻了下 X 上的评论和开发者社区,结果骂声确实比叫好声更响,特别是中文社区。

那确实要聊聊这两级分化了。

先说说指标里的 " 小心思 "

59% 的 SWE-Bench Pro,这个数字本身没什么问题。

SWE-Bench Pro 是目前公认最接近真实软件工程场景的基准,考的是用代码修真实项目里的 bug,还得跑测试验证,不能蒙,含金量是够的。59% 是个实打实的高分。

但翻到 MiniMax 技术报告里,Terminal Bench 2 和 VIBE-Pro 这两个测试有一行注释,它写着,使用了 Claude Code 作为评测脚手架进行测试。 !

这意味着 MiniMax 采用了 Claude Code 的工具链,测自己模型的 Coding 能力,然后拿这个分数去跟 Claude Opus 4.7 做比较。

这个操作我不是很能理解。

我不清楚其他的模型是否也是这样评测的?只有 MiniMax 说了 " 真话 "?又或者只有 MiniMax 是这样的?

我仔细翻了一下,其实 SWE benchmark、Terminal Bench 2 和 VIBE-Pro 都是基于 Claude Code 做的测试。

准确来说,像 Terminal Bench 2 这类需要在环境里连续执行工具调用的 Agent 评测,在当前行业里用脚手架跑是惯例,Claude Code、OpenCode 都是常见选择。

脚手架本身不是问题,问题在于,当你用 A 的框架测 B 的能力,然后对外宣传跟 A 比肩,这样就有点 " 不讲武德 " 了。

模型的原生能力,跟 " 用某个脚手架跑出来的能力 ",是两件事。

用户很难分辨 SWE-Bench Pro 59% 这个数据里有多少是模型能力,有多少是脚手架加成,这就难怪很多人已经完全不信各种评测指标了。

在 MiniMax 官号下面,这样的吐槽比比皆是。

我们来说说 " 开源 " 的诚意

与其他发布的开源模型不同,MiniMax 这次没有公布模型大小。

究竟是一个多大的模型取得了这样的成绩?这让开发者们充满困惑。

其次让很多开发者不满的,是没有公布模型 " 权重 "。官方说法是 " 发布后 10 天内开源 ",模型先 API 上线,权重后面跟上。

这又回到了上面的话题,这种做法充满 " 心机 "。面向一向追求坦诚的程序员来说,这种做法可以理解,但不那么 " 坦荡 "。

为什么这么说?这种安排,更多是商业逻辑上的考虑,我觉得我特别能理解。就是先通过 API 收回一波成本,再开源,无可厚非。

但如果你今天对社区宣传的是 " 开源 ",但又不给权重,社区没有办法在本地环境里验证任何评测数据。所有人只能通过 API 访问模型,既无法复现 benchmark,也无法独立摸清模型底细。

开源社区的核心价值就是 " 可复现、可验证 "。

所以当先宣传开源,再说权重 " 过几天给 ",这两件事放在一起,社区的质疑声也就很自然了。

类似这种

或者这种

最渣心的,还是 Coding Plan 的调整

前两个都还是技术范畴的讨论,Coding Plan 的调整才是骂声最集中的地方。

以前 MiniMax 的 Coding Plan 一直以 " 量大管饱 " 著称。

它是按照请求次数来做模型,限制的是速率,每 5 小时滚动窗口内的请求次数,但没有月度 Token 总量的上限。一个重度开发者,只要不超速,可以持续低速地跑。

有老用户算过,他一个月实际跑下来消耗了三十亿 token,有的甚至五十亿 +,而月费就是那几十块钱。

这是之前的 " 黄金时代 ",每个月无上限地跑,自己控制节奏。

但是,在没有预告的情况下,M3 发布同步推了 Token Plan,把这套规则改了。

改成了什么?按总量来看。Plus 套餐 49 块 6 亿 token,官方说相当于 Claude Pro 5 倍用量,听起来很划算。

但官方细则深究一下,这个 6 亿 token 是按单次调用 50K token 来估算的,折算出来大约是 12000 次调用。

你想想看,M3 支持百万上下文,真正的重度使用场景,单次调用几十万 token 是常态,6 亿 token 一下子就见底了。

更不接受的是原来承诺老用户不受周限额限制,现在却出尔反尔。这怎么可能不炸呢?

官方很快出来回应:

V2EX 上有用户直接把这次和之前的 " 代金券事件 " 并列,说 MiniMax 这是又背刺了一次老用户。

能让用户翻出来历史账单一起算,说明积累的信任是真的在消耗。

说回技术本身,MSA 这个创新有点意思

其实,MiniMax 的这个发布是有点意思的,但都被一系列 " 骚操作 " 盖住了。

特别是 M3 的底层架构创新,我个人觉得还是有一些新东西令人兴奋的。

MiniMax 自研了一个叫 MSA(MiniMax Sparse Attention)的稀疏注意力机制。

传统 Transformer 的注意力计算是 O ( n ) 的,上下文长度翻 10 倍,计算量暴涨 100 倍,这是做长上下文一直绕不开的魔咒。

MSA 的思路是对 KV(Key-Value)做高精度的分块,然后做稀疏化,相比之前 DSA、MoBA 这些方案,它能更精准地覆盖到有用的上下文,而不是随机裁掉一些。

与此相关的是底层算子层面,首创了「以 KV 为外循环去聚合 Q」的计算方式,每个 KV 块只被读一次,内存访问是连续的,速度比开源的 Flash-Sparse-Attention 快 4 倍以上。

实际效果,跟上一代 M2 相比,在百万上下文下,prefilling 阶段加速超过 9 倍,decoding 加速超过 15 倍,单 token 计算量只有上一代的 1/20。

这个方案与之前 DeepSeek 的路径也有所不同。DeepSeek V4 主攻的是 " 混合压缩架构 " 与 " 极低精度计算 " ( CSA + HCA 机制)。

这意味着什么,以前跑百万上下文是奢侈品,现在是真的能用的基础设施了。

从技术路线来看,MiniMax 在长上下文、多模态和 Agent 能力这三块的均衡程度,在国内厂商里确实算突出的。

其他家可能某一块打得很猛,但三个同时达到前沿水位的,M3 是第一个对外宣称的。这个宣称对不对,等独立评测结果出来再看,但方向本身是很清晰的。

最后说几句

真不知道应该怎么理解这次 M3 的发布,是因为沉寂太久,所以太着急?太焦虑了?

模型本身是在进步的,MSA 架构是真创新,长上下文推理效率是实打实提升了,三模态均衡(而且是原生多模态)这件事也确实是难的。

但发布的方式确实是在消耗用户信任,这在争抢开发者的市场里,这番操作让人看不明白。

开源社区的理解很朴素,你说开源就得给权重,你说诚意就别搞文字游戏,你要改价格就得提前说清楚。

现在的局面,骂声和期待同时存在,这本身是个好信号,说明大家还在关注,还有情绪,还没有走人。

就看 MiniMax 接下来这 10 天,权重放出来之后,独立评测会不会把那些指标打回原形了。

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容