关于ZAKER Skills 合作
钛媒体 34分钟前

Anthropic 发了“最强模型”,但大多数人用不上

文 | AIX 财经,作者 | 雷晶,编辑 | 金玙璠

4 月,Anthropic 推出 Mythos 模型预览版。这个模型没有面向公众开放,因为在测试中它展现出极强的网络安全与漏洞挖掘能力,能自主发现数千个高危零日漏洞,一旦流出,容易被用于恶意攻击。

为了把这种能力锁定在防御场景内,Anthropic 推出了玻璃翼计划(Project Glasswing),仅向苹果、谷歌、微软等 12 家核心安全伙伴及 40 余家关键基础设施提供商开放访问权限,并全程受控使用。

先锁起来再发布,这套操作本身就制造了话题。

两个月后,北京时间 6 月 10 日凌晨,Anthropic 正式推出 Fable 5 和 Mythos 5。

从跑分来看,它们几乎在所有基准测试中拿到了最高分,尤其在软件工程和长任务执行上,与其他模型拉开了明显差距。

但围绕这个模型的讨论,很快就不止于它有多强。

Fable 5 和 Mythos 5 实际上共享同一个底层模型。区别在于,Fable 5 面向普通用户,Mythos 5 则继续锁在受信任的安全合作伙伴手中。同一个模型,两套规则,面向两个群体,这在 Anthropic 的产品线里是第一次。

而且,普通用户拿到的也并非完整版本。Anthropic 在 Fable 5 外层加了一道安全分类器,一旦请求触及网络安全、生物化学、模型蒸馏等敏感方向,系统会自动切换到能力更弱的上代模型 Opus 4.8 响应。

定价同样值得注意,输入 10 美元、输出 50 美元 / 百万 Token,官方称约为 Opus 4.8 的两倍。6 月 23 日起,Fable 5 还将从 Pro、Max 等订阅计划中移出,用户想继续使用,需要额外消耗 credits。

这套组合拳拆开来看很合理。能力太强所以做安全限制,成本更高所以提价,风险敏感所以分级发布。但放到一起,释放的信号就变得微妙了。这和过去几年大模型公司拼速度、拼开放的竞争逻辑不同,各家都在想办法让自家模型触达更多用户,而 Anthropic 选择主动收窄入口,把限制变成了产品策略的一部分。

那么,这个号称前所未有的 " 最强模型 ",是被神化了吗?

01. 能力提升明显,自动降级成争议

分级归分级,先看实力到底如何。

软件工程是 Anthropic 这次更新的核心亮点。在 SWE-Bench Pro 测试中,Fable 5 拿到 80.3% 的成绩。这个测试主要是看模型能不能在真实的 GitHub 仓库里定位 bug、理解上下文、写出能用的修复代码,80.3% 意味着每 5 个真实工程问题,Fable 5 能解决 4 个。

在 Terminal-Bench 2.1 榜单上,Fable 5 得分 88.0%,超过了 Open AI 的 Codex CLI。值得注意的是,Fable 5 是通用模型,Codex CLI 是专为编程场景打造的垂直工具,二者的差距更能体现其编程实力。

但真正能看出差距的是 FrontierCode Diamond,这项测试考察模型的产出的代码能不能达到生产级代码库的质量标准。Fable 5 拿到 29.3%,Opus 4.8 只有 13.4%,GPT-5.5 只有 5.7%。三个数据均来自 Anthropic 官方公布,GPT-5.5 的数据为其内部测试结果。

过去几年,AI 模型写代码的能力一直在进步,但长期卡在一个瓶颈上:代码能跑,但不好维护;能够通过基准测试,但落地真实项目中仍会问题频发。

Fable 5 在这个维度上的突破,说明 Anthropic 这次升级的不只是解题能力,而是把模型往真正的工程交付方向推进。

程序员李夏告诉「AIX 财经」,AI 生成代码很容易出现上下文不连贯的问题,初期能精准理解需求,长时间任务中容易遗忘信息,后期维护成本很高。

在他看来,Fable 5 在长任务里的逻辑连贯性有明显进步,同类编码任务可一次性完成,准确率更高。不过,Fable 5 相比 Opus4.8 生成速度较慢,思考链更长,整体响应速度有所下降。

视觉能力也有提升。Anthropic 称,Fable 5 能从复杂科学图表中提取精确数字,也能根据网页截图直接重建应用源码。官方还演示了实操案例,Fable 5 只靠游戏画面截图就通关《宝可梦火红》,不需要搭配辅助工具。前代模型做类似任务时,还需要配备复杂的辅助系统。

长上下文和记忆方面,官方给出的说法是,任务越长越复杂,Fable 5 的优势越明显。

此外,生命科学是另一个被重点提及的方向。Anthropic 透露基于 Mythos 5 搭建的单细胞数据分析模型,覆盖 138 个物种,性能优于《Science》近期刊发的同类型模型,参数量却仅为后者的百分之一。

单从跑分成绩来看,综合能力确实上了一个台阶。

再来看看跑分之外。

Fable 5 搭载了一套安全分类器,只要用户请求涉及网络安全、生物化学或模型蒸馏方向,系统会自动切换为 Opus 4.8 来响应,并告知用户发生了模型降级。官方表示,超过 95% 的日常对话不会触发,写作、编程、分析等任务大多不受影响。不过,实际体验可能因使用场景有所差异。

在实际使用中,这条界限实际上很容易被触发。李夏提到,他想在国内 Mac 上体验苹果 Siri AI 的功能,需要修改一些系统级的序列号参数,Fable 5 直接拒绝了操作。目前,分类器设定比较保守,存在误判,官方称后续会持续调整。

但 Anthropic 还披露了另一层限制,对于大模型开发相关的请求,比如构建预训练流水线、设计分布式训练基础设施等,模型会在后台主动降低输出质量,且不会告知用户。

综合来看,Fable 5 在各项硬指标上确实有了进步,但自动降级机制在一定程度上会影响使用体验。

02. 最强模型,不是人人用得上

Anthropic 这次的模型升级,用同一个底层模型,包装成了两款产品,面向两类群体。

Mythos 5 留在玻璃翼计划的框架内,只面向苹果、谷歌、微软等 12 家核心安全伙伴及 40 余家关键基础设施提供商开放,网络安全和生物方向的限制被解除,Fable 5 则面向 C 端订阅用户。

后续 Anthropic 还计划向经过审核的研究人员开放一个生物方向的受信通道,提供去掉了生物和化学限制的 Fable 5 版本。

这涉及到过去大模型行业没有面对过的问题,当模型能力足够自主发现漏洞,全量发布就变成了一种风险。

这解释了 Fable 5 和 Mythos 5 为什么要拆成两个版本。过去模型分级靠参数,大小之间是能力差距,现在同参数的模型也要分级,分的是信任门槛。

独立开发者展波认为,从安全角度来看这个逻辑很合理。Mythos 级别的漏洞挖掘能力如果不加限制地开放给个人,会大幅降低攻击成本,容易被滥用于恶意攻击。先锁住、再逐步放开受信访问,是目前最稳妥的路径。

但安全只解释了为什么要分层。另一个问题在于,能用上 Fable 5 的普通用户,是不是都从中获益?

从 Anthropic 发布的跑分和案例来看,这一轮升级,优先服务的是程序员和工程团队。

展波用 Fable 5 协助优化了自己用 Rust 编写的解释型语言项目。在同等 Web 服务场景下,他将其与基于 Python 的 FastAPI 和基于 Node.js 的 Hono 做了对比。使用 Fable 5 的解释器驻留内存仅 9.8MB,而 FastAPI 和 Hono 分别为 43.3MB 和 63.0MB,吞吐和延迟指标同样领先。

他认为同样一个任务,用 Fable 5 可能很快就完成,且效果更好。相比于价格,开发者更看重产出质量。只要模型能显著提升项目效果,高价是可以接受的。

李夏也提到,对程序员来说,模型生成质量和收入正相关。产出质量越高,提效越明显,回报越大。模型能力的提升可以直接换算成项目质量和时间节省,付费意愿自然会更强。

但换一个使用场景,结论就不一样了。

AI 博主徐子龙以他的日常使用为例,他的日常工作分为写代码、做数据分析和写论文。他认为目前的大模型代码能力过剩,文字能力欠佳。对于科研工作者、内容创作者、法律和金融从业者等群体来说,对 AI 的核心需求集中在中文理解、长文写作和文档处理上。

展波提到,现在的趋势不是用户在挑模型,是模型在挑用户。编程重度用户被高端模型筛选出来,日常轻度用户被推向更有性价比的替代品。这说明,AI 不再是一个普惠工具,而是一层层筛出不同支付能力和使用强度的用户。

即便是最强模型,也要在有需求的人手中才能物有所值。

03. 用不起 AI 的时代,要来了吗?

Fable 5 的 API 定价是输入 10 美元、输出 50 美元每百万 Token,是 Opus 4.8 的两倍,也是目前全球公开可用的前沿模型中最贵的。

主流大模型 API 价格对比

但真正值得关注的不是价格翻了一倍,是付费方式变了。

Fable 5 上线后,Pro、Max、Team 等订阅用户可以免费使用两周。6 月 23 日起,模型将从订阅计划中移出,继续使用需要额外购买 credits,按 API 费率结算。订阅期内使用 Fable 5,消耗的用量额度也是 Opus 4.8 的两倍。

先免费试用再移出订阅,也是在释放一种信号,把用户从固定月费推向按量计费。订阅制的好处是确定性,用户知道每月花多少钱;按量计费对平台更有利,用得多收得多,用户的花费上限被打开了。说白了,Anthropic 想告诉用户:最先进的东西,本来就不该是包月的。

这个转变发生的时间点也值得注意。6 月 1 日,Anthropic 刚刚向 SEC 秘密提交了 IPO 招股书,估值达到 9650 亿美元,目标最早今年 10 月上市。从年初到 5 月底,Anthropic 的年化收入从 90 亿美元增长至 470 亿美元,其中 Claude Code 贡献超过 25 亿美元,企业客户贡献了绝大部分收入。

一个即将上市的公司,需要向资本市场证明营收增长能力和定价权。把最强模型从固定订阅中拆出来、引导高价值用户按量付费,从财务叙事上看逻辑是通的。

而国产模型正在做完全相反的事。

5 月底,DeepSeek 宣布 V4-Pro API 永久降价 75%。小米紧随其后,MiMo-V2.5-Pro 降幅高达 99%,价格几乎对齐 DeepSeek。

一边是 DeepSeek 把价格打到地板,一边是 Anthropic 把天花板往上抬,不同玩家有不同的打法。

国产模型的降价一方面是技术红利的释放,底层架构发生了变化,省下的空间被用来换更大的市场。

Anthropic 的逻辑正好反过来。它不需要靠低价抢市场,高价本身也是筛选器,把愿意为前沿能力付费的高价值用户留下来。

徐子龙认为未来 AI 会越来越贵,因为需求的扩张远远大于供给的扩张,算力涉及到电、芯片、模型训练,增长速度太慢。AI 算力未来会像 5G 一样成为基础设施,但和 5G 不同,算力的供给远比带宽紧张,价格也就相应的增长。

从商业模式上看,AI 行业正在出现类似云计算早期的分层结构。底层是高度标准化、价格趋近于零的通用能力,谁都能调用,靠走量变现;顶层是少数厂商把持的前沿能力,定价权集中,靠客单价变现。通用能力的价格会被持续压低,但前沿能力的溢价将长期存在。

从能力分级到付费分层,AI 行业正在复制云计算走过的路。便宜的模型越来越多,最好的模型越来越贵。

* 应受访者要求,文中李夏为化名。

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容