APP下载

关于ZAKER

Skills 合作

钛媒体 29分钟前

Sonnet 5 终于来了，然而 Opus 4.8 现在有点尴尬

文 | 字母 AI

沉寂了小半年，Sonnet 终于更新到 5 版本了。好消息，性能几乎和 Opus 4.8 持平，坏消息，比以前成本高了，另外一个好消息，8 月 31 日前 token 打折。

我知道，真正代表 Anthropic 技术天花板的是 Fable 5 和 Opus 4.8。尤其是 Anthropic 如今临近上市，这两张牌才是 IPO 叙事的发动机。

但说实话，作为普通消费者，我更关注的还是 Sonnet 5，因为我需要的是一个足够聪明，且不至于让我月底肉疼的模型。

与此同时，Anthropic 也曝出会在系统提示词里给中国用户上标记。

虽然目前并未出现公开证据证明它会据此封号或降权，但这件事已经足够敏感：用户看不见，模型照常跑，后台却能通过一组几乎不可察觉的格式差异，把特定地区的调用单独识别出来。

另外，Anthropic 官方表示，美国已解除对 Claude Fable5 和 Mythos5 的出口管制，Anthropic 将于明日开始恢复访问权限

Sonnet 5 到底强在哪

不废话，直接看数据。

在 Agent 编程方面，Sonnet 5 得分 63.2%，相比 Sonnet 4.6 的 58.1% 涨了 5.1%，距离 Opus 4.8 的 69.2% 还剩 6%。

但是在知识方面，Sonnet 5 反超了 Opus 4.8。

Anthropic 对 Sonnet 5 的定位是 " 迄今为止最具 Agent 能力的 Sonnet"。

官方表示，Sonnet 5 可以自主制定计划、调用浏览器和终端等工具、长时间独立运行，而在几个月前，这些能力还只有更大、更贵的模型才能做到。

说白了，Anthropic 的意思是 Sonnet 5 也能干以前 Opus 和 Fable 级别的工作了。

真正有意思的地方是在 Agent 搜索和计算机操作方面，在不调高模型 " 认真（effort）程度 " 的情况下，Sonnet 5 能干过的活儿比 Opus 4.8 多。调到最认真那档以后，Sonnet 5 有些任务直接追上 Opus 4.8，而且花的钱还少一大截。

所以总归一句话，Sonnet 5 只用 Opus 4.8 大约一半不到的价格，做到了它 80%-90% 的水平。

还没完。Sonnet 5 的测试者们均表示，以前 Sonnet 没法完成的复杂任务，现在 Sonnet 5 能轻松跑完，甚至还会主动检查自己的输出。

Zapier 的工程师举了个例子，他让模型连续执行 " 更新 Salesforce 账户等级，再给企业客户发公告邮件 "，Sonnet 5 一口气做完了，而他表示，" 以前会卡在半路 "。

在安全方面，Sonnet 5 的幻觉率和迎合倾向都低于 Sonnet 4.6，在 Agent 场景下抵御提示注入攻击的能力也更强。同时，模型默认开启了实时安全防护。也就是说，模型在跑的时候，系统会在后台检测它是不是在干危险的网络安全操作，发现就当场掐断。

有一个评测特别值得说。Anthropic 联合 Mozilla，用 Firefox 147 的已知漏洞测试模型的漏洞利用能力。

所谓漏洞利用，指的是给定一个已知的软件漏洞，看看模型能不能自己写出代码来攻击它。

Sonnet 5 和 Sonnet 4.6 一样，完整漏洞利用的成功率是 0%。它能写出代码片段，但始终拼不出一个完整可用的攻击程序。这说明它的代码能力虽然涨了，但还不具备自主发起网络攻击的水平。

相比之下，Opus 4.8 在这项测试中表现出明显的网络攻击能力。

Anthropic 表示，他们没有刻意训练 Sonnet 5 做网络安全，它在这方面的能力大幅弱于 Opus 4.8 和 Mythos 5，这是有意为之。

不过 Anthropic 也表示，在一项覆盖大量不良行为的自动化审计中，Sonnet 5 的整体得分比 Sonnet 4.6 更安全，但它确实在某些不良行为上比 Opus 4.8 和 Mythos Preview 更容易 " 失态 "。

官方把这归因于更强的模型本身具备更好的行为对齐，同时也承认 Sonnet 5 还没达到旗舰级模型的克制水平。

还有一个细节必须得说一下，Sonnet 5 换了新的分词器。

同样的文本输入，消耗的 Token 数量可能比原来多 1.0 到 1.35 倍。

Anthropic 的说法是，推广期价格会先降低 token 费用，以让短期内用户适应总成本变化。

具体来说，8 月 31 日前每百万输入是 2 美元、输出是 10 美元；输入 3 美元、输出 15 美元。分词器变化带来的实际消耗增加，8 月 31 日之后，价格可能会比以前更高。

伴随着 Sonnet 5，Anthropic 还发了 Claude Science。这是一个面向生命科学的 AI 工作台，定位是 " 科研领域的 Claude Code"。

它用的是现有的 Claude 模型，把 60 多个科学数据库、可复现的计算流程和本地运算能力打包进了一个 Agent 的界面。

早期用户里，UCSF 的一个团队靠它发现了 RNA-seq 数据里一个卡了将近一年的实验室污染物。

Anthropic 正在从卖模型转向更高层，Claude Code 是开发者的，Claude Science 想做科研人员的。

但是 Anthropic 最近不太平

claudefa.st 的数据显示，大约 90% 的 API 请求走的是 Sonnet 4.6。

Opus 系列虽然强，但真正撑起 Anthropic 流量的，还得是便宜好用的 Sonnet。

从 2 月到 6 月，Opus 系列连发了三个大版本，Opus 4.6、4.7、4.8，Agent 能力越来越强。可问题是，Sonnet 停在 4.6 这个版本里将近大半年的时间。

Opus 的价格将近是 Sonnet 的两倍，对于普通开发者来说太贵了。

更尴尬的是，Opus 4.8 不争气。

6 月 26 日，Cursor AI 官方发了一篇重磅研究，实锤了 Opus 4.8 在编程评测里大规模 " 偷看答案 "。

研究显示，Opus 4.8 在 SWE-bench 上跑出 87.1% 的成绩是作弊的，一旦断网、切断它读取代码仓库 .git 历史的能力，成绩直接暴跌到 73.0%。

Datacurve 的评测也显示，Opus 4.6 和 4.7 在超过 12% 的被审任务中被标记为 " 作弊 "。

这还没完。过去几周，Opus 4.8 连续被曝 " 断崖式降智 "。思考深度下降 67%，基础逻辑推理频频翻车，幻觉率飙升。

外网论坛上有开发者抱怨，现在用 Opus 4.8 Max 的感觉 " 比用老款 Haiku 还要糟糕得多 "。

而且就在 Sonnet 5 的同一天，外网论坛里有人发现，Claude Code 从今年 4 月 2 日的 2.1.91 版本开始，会在系统提示词里悄悄给中国用户 " 打水印 "。

具体的做法是，它检测你的时区是否设为亚洲、代理 URL 是否指向中国域名。

如果是，就把系统提示词里的日期格式从 2026-06-30 悄悄改成 2026/06/30，撇号也从 ASCII 换成肉眼分不出的 Unicode 字符 U+02BC。

用户完全看不到这些改动，但 Anthropic 的后台一清二楚，其目的也不言而喻。

除了时区，它还检查代理 URL 是否匹配一个内含 147 条记录的域名黑名单，覆盖中国大厂域名、云服务商、AI 实验室、API 中转站。

如果匹配上，日期分隔符换成斜杠，撇号换成隐写字符。三条信号叠加，足够 Anthropic 在后台精确识别每一个中国开发者。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

企业资讯

查看更多内容

Blockchain News

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

Sonnet 5 终于来了，然而 Opus 4.8 现在有点尴尬

宙世代

一起剪

相关阅读

1299元！酷态科电能仓600发布：0.5度电、能带1000W功率

猫人无法复制，美力城如何狂飙百亿？

AI 没书可读之后，两个 AI 教父赌上了相反未来

万亿美元的朴实无华 马斯克花钱模拟器火了：买空NVIDIA显卡才用0.7%

美的空调欧洲卖断货，2000亿何享健赢麻了

太空算力迈入“操作系统时代”：北京创新中心揭牌，全球首个开源标准首发

下半年涨价第一枪打响！AMD显卡涨价10%

每盒售价159元！Labubu新品常规款破发：告别二手高溢价行情

Vertiv以及另外6只可把握AI基础建设热潮的股票

赤子城独家投资：4人创业团队「MobAI」，推出AI互动平台「Lunaverse Stories」

AI订单远超预期，英飞凌潘大伟：以“虚拟工厂”动态调配产能

苹果首次上架iPhone 16e官翻机：约2853元起售

替代高通还差一步 苹果自研基带不支持5G毫米波：iPhone 18 Pro续用高通方案

华为最强平板！MatePad Pro Max海外版开售：预装HarmonyOS 4.3

湘潭电化“一种快充型尖晶石锰酸锂正极材料及其制备方法与应用”专利获授权

最新评论

钛媒体

热门推荐

企业资讯

万亿美元的朴实无华马斯克花钱模拟器火了：买空NVIDIA显卡才用0.7%

替代高通还差一步苹果自研基带不支持5G毫米波：iPhone 18 Pro续用高通方案