关于ZAKER Skills 合作
钛媒体 29分钟前

Sonnet 5 终于来了,然而 Opus 4.8 现在有点尴尬

文 | 字母 AI

沉寂了小半年,Sonnet 终于更新到 5 版本了。好消息,性能几乎和 Opus 4.8 持平,坏消息,比以前成本高了,另外一个好消息,8 月 31 日前 token 打折。

我知道,真正代表 Anthropic 技术天花板的是 Fable 5 和 Opus 4.8。尤其是 Anthropic 如今临近上市,这两张牌才是 IPO 叙事的发动机。

但说实话,作为普通消费者,我更关注的还是 Sonnet 5,因为我需要的是一个足够聪明,且不至于让我月底肉疼的模型。

与此同时,Anthropic 也曝出会在系统提示词里给中国用户上标记。

虽然目前并未出现公开证据证明它会据此封号或降权,但这件事已经足够敏感:用户看不见,模型照常跑,后台却能通过一组几乎不可察觉的格式差异,把特定地区的调用单独识别出来。

另外,Anthropic 官方表示,美国已解除对 Claude Fable5 和 Mythos5 的出口管制,Anthropic 将于明日开始恢复访问权限

Sonnet 5 到底强在哪

不废话,直接看数据。

在 Agent 编程方面,Sonnet 5 得分 63.2%,相比 Sonnet 4.6 的 58.1% 涨了 5.1%,距离 Opus 4.8 的 69.2% 还剩 6%。

但是在知识方面,Sonnet 5 反超了 Opus 4.8。

Anthropic 对 Sonnet 5 的定位是 " 迄今为止最具 Agent 能力的 Sonnet"。

官方表示,Sonnet 5 可以自主制定计划、调用浏览器和终端等工具、长时间独立运行,而在几个月前,这些能力还只有更大、更贵的模型才能做到。

说白了,Anthropic 的意思是 Sonnet 5 也能干以前 Opus 和 Fable 级别的工作了。

真正有意思的地方是在 Agent 搜索和计算机操作方面,在不调高模型 " 认真(effort)程度 " 的情况下,Sonnet 5 能干过的活儿比 Opus 4.8 多。调到最认真那档以后,Sonnet 5 有些任务直接追上 Opus 4.8,而且花的钱还少一大截。

所以总归一句话,Sonnet 5 只用 Opus 4.8 大约一半不到的价格,做到了它 80%-90% 的水平。

还没完。Sonnet 5 的测试者们均表示,以前 Sonnet 没法完成的复杂任务,现在 Sonnet 5 能轻松跑完,甚至还会主动检查自己的输出。

Zapier 的工程师举了个例子,他让模型连续执行 " 更新 Salesforce 账户等级,再给企业客户发公告邮件 ",Sonnet 5 一口气做完了,而他表示," 以前会卡在半路 "。

在安全方面,Sonnet 5 的幻觉率和迎合倾向都低于 Sonnet 4.6,在 Agent 场景下抵御提示注入攻击的能力也更强。同时,模型默认开启了实时安全防护。也就是说,模型在跑的时候,系统会在后台检测它是不是在干危险的网络安全操作,发现就当场掐断。

有一个评测特别值得说。Anthropic 联合 Mozilla,用 Firefox 147 的已知漏洞测试模型的漏洞利用能力。

所谓漏洞利用,指的是给定一个已知的软件漏洞,看看模型能不能自己写出代码来攻击它。

Sonnet 5 和 Sonnet 4.6 一样,完整漏洞利用的成功率是 0%。它能写出代码片段,但始终拼不出一个完整可用的攻击程序。这说明它的代码能力虽然涨了,但还不具备自主发起网络攻击的水平。

相比之下,Opus 4.8 在这项测试中表现出明显的网络攻击能力。

Anthropic 表示,他们没有刻意训练 Sonnet 5 做网络安全,它在这方面的能力大幅弱于 Opus 4.8 和 Mythos 5,这是有意为之。

不过 Anthropic 也表示,在一项覆盖大量不良行为的自动化审计中,Sonnet 5 的整体得分比 Sonnet 4.6 更安全,但它确实在某些不良行为上比 Opus 4.8 和 Mythos Preview 更容易 " 失态 "。

官方把这归因于更强的模型本身具备更好的行为对齐,同时也承认 Sonnet 5 还没达到旗舰级模型的克制水平。

还有一个细节必须得说一下,Sonnet 5 换了新的分词器。

同样的文本输入,消耗的 Token 数量可能比原来多 1.0 到 1.35 倍。

Anthropic 的说法是,推广期价格会先降低 token 费用,以让短期内用户适应总成本变化。

具体来说,8 月 31 日前每百万输入是 2 美元、输出是 10 美元;输入 3 美元、输出 15 美元。分词器变化带来的实际消耗增加,8 月 31 日之后,价格可能会比以前更高。

伴随着 Sonnet 5,Anthropic 还发了 Claude Science。这是一个面向生命科学的 AI 工作台,定位是 " 科研领域的 Claude Code"。

它用的是现有的 Claude 模型,把 60 多个科学数据库、可复现的计算流程和本地运算能力打包进了一个 Agent 的界面。

早期用户里,UCSF 的一个团队靠它发现了 RNA-seq 数据里一个卡了将近一年的实验室污染物。

Anthropic 正在从卖模型转向更高层,Claude Code 是开发者的,Claude Science 想做科研人员的。

但是 Anthropic 最近不太平

claudefa.st 的数据显示,大约 90% 的 API 请求走的是 Sonnet 4.6。

Opus 系列虽然强,但真正撑起 Anthropic 流量的,还得是便宜好用的 Sonnet。

从 2 月到 6 月,Opus 系列连发了三个大版本,Opus 4.6、4.7、4.8,Agent 能力越来越强。可问题是,Sonnet 停在 4.6 这个版本里将近大半年的时间。

Opus 的价格将近是 Sonnet 的两倍,对于普通开发者来说太贵了。

更尴尬的是,Opus 4.8 不争气。

6 月 26 日,Cursor AI 官方发了一篇重磅研究,实锤了 Opus 4.8 在编程评测里大规模 " 偷看答案 "。

研究显示,Opus 4.8 在 SWE-bench 上跑出 87.1% 的成绩是作弊的,一旦断网、切断它读取代码仓库 .git 历史的能力,成绩直接暴跌到 73.0%。

Datacurve 的评测也显示,Opus 4.6 和 4.7 在超过 12% 的被审任务中被标记为 " 作弊 "。

这还没完。过去几周,Opus 4.8 连续被曝 " 断崖式降智 "。思考深度下降 67%,基础逻辑推理频频翻车,幻觉率飙升。

外网论坛上有开发者抱怨,现在用 Opus 4.8 Max 的感觉 " 比用老款 Haiku 还要糟糕得多 "。

而且就在 Sonnet 5 的同一天,外网论坛里有人发现,Claude Code 从今年 4 月 2 日的 2.1.91 版本开始,会在系统提示词里悄悄给中国用户 " 打水印 "。

具体的做法是,它检测你的时区是否设为亚洲、代理 URL 是否指向中国域名。

如果是,就把系统提示词里的日期格式从 2026-06-30 悄悄改成 2026/06/30,撇号也从 ASCII 换成肉眼分不出的 Unicode 字符 U+02BC。

用户完全看不到这些改动,但 Anthropic 的后台一清二楚,其目的也不言而喻。

除了时区,它还检查代理 URL 是否匹配一个内含 147 条记录的域名黑名单,覆盖中国大厂域名、云服务商、AI 实验室、API 中转站。

如果匹配上,日期分隔符换成斜杠,撇号换成隐写字符。三条信号叠加,足够 Anthropic 在后台精确识别每一个中国开发者。

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容