Anthropic 最强模型，很可能敲响了 AGI 的防盗门

本文来自微信公众号：字母 AI，作者：苗正，题图来自：AI 生成

Anthropic 每次传出新品发布，都会被媒体称为 " 王炸 "，但这次王炸真的来了。外媒曝光了 Anthropic 正处于测试阶段的最强 AI 模型。

Anthropic 的内容管理系统配置出了问题，近 3000 份未发布的内部文档，被放在了公开可访问的数据缓存里。

相当于敞着大门让别人看内部机密。

剑桥大学网络安全研究员亚历山大 · 保韦尔斯（Alexandre Pauwels）和 LayerX Security 的高级研究员罗伊 · 帕斯（Roy Paz）在搜索公开数据时发现了这些文件。

这些文件里有什么？文章草稿、未使用的图片素材、内部活动安排，甚至还有一份标题里带 "parental leave" 的员工文档。

但最引人注目的，是一份详细介绍新模型的草稿。

文件显示，Capybara 和 Mythos 指向同一个底层模型。

前者是产品层级的命名，跟 Opus、Sonnet 一样，后者是模型的代号。就像你可以把一款发动机装进不同型号的车里，Mythos 是那台发动机，Capybara 是那个新车系。

说句题外话，其实千问的卡通形象也是 Capybara，你说这不巧了嘛！

言归正传，草稿里面有这么一句话，" 与我们之前最好的模型 Claude Opus 4.6 相比，Capybara 在软件编程、学术推理和网络安全测试等方面的得分显著提高。"

Anthropic 发言人证实，新模型在 " 推理、编码和网络安全 " 方面有 " 有意义的进步 "，代表了 " 阶跃式变化 "，并且该模型已经交付给了极少数早期客户，以进行测试。

但真正让 Anthropic 紧张的不是性能提升，而是网络安全能力的飞跃。

草稿中写道，这款模型 " 在网络能力方面目前远远领先于任何其他 AI 模型 "，并且 " 预示着即将到来的一波模型浪潮，这些模型利用漏洞的能力将远远超过防御者的努力 "。

换句话说，Anthropic 担心黑客会拿这个模型发动大规模网络攻击。

今年 2 月，OpenAI 发布 GPT-5.3-Codex 时，首次将一款模型归类为 " 高网络安全能力 "，它被 OpenAI 拿去训练识别软件漏洞。Opus 4.6 也展现出类似的能力，可以发现代码库中的未知漏洞。

两家公司都清楚，这其实是一把双刃剑。

Capybara 可以是守护天使，也可以是充满恶意的病毒。

所以 Anthropic 为 Capybara 设计了一套谨慎的发布策略。草稿写道：" 在准备发布 Claude Capybara 时，我们希望格外谨慎。因为我们清楚它带来的风险，肯定比测试中能遇到的情况更为严重。"

Anthropic 的具体做法是优先向网络安全防御组织提供早期访问权限，让他们有时间加固代码库，应对即将到来的 AI 攻击浪潮。

文件还提到，这个模型运行成本很高，短期内不会面向普通用户开放。

随后 Anthropic 迅速关闭了公开访问权限。发言人将此归咎于 " 内容管理系统配置中的人为错误 "，并强调这些是 " 考虑发布的早期草稿 "。

但泄露已经发生。Mythos 和 Capybara 成了公开的秘密，Anthropic 的发言人也大大方方地承认了 Mythos 和 Capybara 的存在。

一、Mythos 可能是这个样子的

那么 Mythos 具体会是什么样呢？

先说结论：如果 Mythos 真有 " 阶跃式变化 "，我猜它不只是一个更大的 base model，而是一套 " 模型 + 编排 + 验证 + 风险控制 " 的复合系统。

也就是说，真正跳变的可能不是参数量，而是 " 做长任务时不散架 "。

我的理由很简单，技术会变，但是 Anthropic 自己的大方向不会变。

Anthropic 已经发布了很多关于公司技术路线的博客，比如《Next-generation Constitutional Classifiers: More efficient protection against universal jailbreaks》（下一代分类器：更高效地防范通用越狱攻击），以及《Mitigating the risk of prompt injections in browser use》（降低浏览器使用中提示注入的风险）等等。

这东西就跟概念车一样。

先说说安全方面吧，很多人以为杀毒软件还是靠 " 病毒库 " ——就像警察拿着通缉犯照片挨个比对。但实际上，现代杀毒软件和 EDR（端点检测与响应）系统早就不是这么干了。

它们会看文件结构、监控进程行为、分析 API 调用模式、追踪横向移动轨迹，甚至用机器学习判断 " 这个行为像不像攻击 "。

换句话说，现代安全系统已经不只是在找 " 已知的坏人 "，而是在识别 " 可疑的行为模式 "。

Mythos 可能把这个逻辑又往前推了一步。它能理解攻击的语义。

通过理解一段代码、一串工具调用、一段对话，判断是不是在构造一条真实可执行的攻击链。

比如它能分辨出：这不是普通的压缩脚本，而是在做规避扫描、自启动、凭据窃取这一整套动作；这不是正常的渗透测试问答，而是在拼接 exploit、持久化、横移、出网这几个步骤。

Mythos 很可能具备 " 漏洞泛化发现 " 能力。

Anthropic 在今年 2 月的博客中提到，Opus 4.6 找零日漏洞的方式不像传统 fuzzing 那样乱撞，而是通过理解代码语义、历史修复模式和相似 bug 特征，去找 " 还没被修掉的同类漏洞 "。

看到一个漏洞后，它就能立刻联想到 " 其他地方是不是也存在类似的漏洞 "。

Mythos 在推理方面的提升，可能也不单单是说 benchmark 分数又高了几分。

比如它可能在思考过程中更少出现中途漂移，更少为了迎合用户而过度自信，更会显式区分 " 已知、推断、未知 "，更会在不确定时保守行动等等。

这和安全是同一类底层能力。因为好的模型不只是更会生成答案，而是更会管理自己的不确定性。

Claude 的一大重点就是编程。所以我觉得在编程能力上，Mythos 可能不只是 " 把代码写地更好 "，而是从 " 会写代码 " 变成 " 会经营代码库 "。

Mythos 可能会把模块边界、依赖关系、历史 patch 风格、测试习惯放在一起进行建模。

它会先拆改动图、再分批落 patch，而不是想到哪改到哪；写完代码后会主动补测试、跑静态检查，根据失败日志回滚到更稳的方案。

这种能力对真实工程项目的价值，远超在测试集上多做对几道题。

当然最终要落到的地方，肯定是在线束（harness）上，Mythos 很可能实现了从 " 单次回答强 " 到 " 整条执行链稳 " 的跨越。

它会把大任务拆成可验证的小阶段，多个子任务并行执行再汇总结果，在长链条里保留关键状态、丢掉噪声。某一步报错时不需要从头来过，只要找到问题发生地，对其局部进行修复，就可以继续执行任务。

就像游戏里的检查点，如果你没有通过某一个 BOSS，你不需要从头开始打整个章节，你会被传送到上一个检查点。

这就像工业控制里的 " 线束管理 " ——不是某一根线更粗，而是整个连接、隔离、容错、标记、回路设计更合理。

长上下文能力的提升可能也不只是 " 窗口更大 "，而是 " 上下文利用率更高 "。

现在的大模型，一说上下文窗口，每个都说自己能装下几十万字，但是一问它全文重点或者文档关系，立刻就哑巴了。

Mythos 如果真有进步，可能体现在更强的重点检测、更好的层级摘要、更准的跨文档对齐，以及更有效的持续记忆写回机制。

在工具使用上，Mythos 可能从 " 会调工具 " 升级到 " 会设计实验 "。

Anthropic 已经在推 computer use、terminal、browser 这套能力，但真正的跨越不是 UI 自动化更强，而是知道什么时候该读代码、什么时候该跑测试、什么时候该查文档。

如何设计最小验证闭环、避免无效探索、控制成本。

通俗说，就是从 " 会操作电脑 " 升级到 " 会像工程师那样做排障实验 "，甚至于是说 " 碰到问题时，会原地掏出一个机床自己制造一个特化对口的工具来处理问题 "。

二、还有呢？

反正都猜这么多了，不妨咱们就再往深了猜猜，我觉得 Mythos 的提升很可能来自几种训练和推理技巧的叠加。

第一是更重的测试时计算，也就是模型会根据任务难度动态分配更多 " 思考预算 "，在关键步骤上做更长、更深的推理，而不是一口气线性吐完答案。

就像考试，普通的 AI 都是闭卷快答选手，不管是 1 分的选择题，还是 20 分的压轴大题，都是扫一眼就动笔，写一步不回头，匀速写完拉倒，哪怕题很难，也是顺嘴瞎编凑数。

Mythos 是学霸，拿到题先分难度，简单题秒答不浪费时间；遇到复杂大题、关键步骤，就多打草稿、多琢磨几遍，算对了再往下写，卡壳了就停下来多想一层，绝不会张嘴就来。

第二是更偏向 agent 轨迹的强化学习，训练目标不再只是 " 最后一句话答对了没有 "，而是 " 整条任务链有没有成功完成 "，包括怎么拆计划、何时调用工具、何时停下来验证、出错后如何回退。

原来的训练方式是只看 " 项目最后有没有交差 "，哪怕实习生中间瞎搞、找别人代做、步骤全错，最后蒙对了结果，就发奖金。

要是中间全对，最后一步手抖错了，直接扣钱，完全不管过程。

Mythos 是全程盯流程，不仅看最后项目成没成，还要看你会不会把大项目拆成一步一步的小计划，什么时候该查资料、用工具，什么时候该停下来核对前面的内容，做错了会不会回头修正。

第三是更强的 verifier，也就是某种内置的审稿人或质检员，在代码场景里检查 patch 是否真的成立，在安全场景里检查输出是否显著增加攻击可执行性。

这个你就当成是公众号发文章。普通 AI 是作者写完了直接发，不管有没有错别字、事实错误、合规风险，发出去出问题再说。

Mythos 就和字母 AI 一样，要有提纲、要有多道审核、还要去求证等等。这篇文章除外。

第四是更细粒度的风险监控，不只看最终文本，而是看模型内部表征和中间轨迹，判断它是不是正在形成一条危险的攻击链。

这也是为什么我一直拿现代杀毒软件和 EDR 来类比。过去的杀毒软件更像 " 对照病毒库 "，今天的安全系统更像 " 识别可疑行为模式 "。

如果把这个逻辑搬到大模型里，Mythos 的安全能力就可能不是靠硬编码关键词，而是靠对任务语义、工具调用顺序、代码行为和中间状态的综合判断。

它识别的不是 " 某个坏答案 "，而是 " 这个请求会造成怎样的后果 "。一旦这种能力成熟，安全就不再只是一个外挂过滤器，而会变成模型推理过程本身的一部分。

如果把这些能力串起来看，Mythos 可能会是一个将语义泛化、长任务稳定性、工具编排、风险控制这几件事给融合起来的新产品。

这也解释了为什么 Anthropic 对 Mythos 如此谨慎。

一个能理解攻击语义、能泛化发现漏洞、能编排长链条任务、能自主使用工具的 AI，这已经是敲响 AGI 的防盗门了。

但这里有个更深层的问题：当 AI 的攻击能力开始系统性地超过防御能力，整个网络安全的平衡会不会被打破？

如果未来几个月 Anthropic 真的正式发布 Mythos 或者 Capybara，那么最应该盯紧的是它在 computer use、terminal、browser 这类长任务环境里的稳定性。

因为这类场景最能暴露一个模型到底只是 " 单轮回答强 "，还是已经具备 " 持续执行 " 的系统能力。真正的阶跃式变化，最后都会反映在这些难以伪装美化的指标上。

从这个角度看，Mythos 泄密事件的真正意义，是揭示了 AI 发展的下一个临界点。

而这个临界点，可能比我们想象的来得更快。

本文来自微信公众号：字母 AI，作者：苗正

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

Anthropic 最强模型，很可能敲响了 AGI 的防盗门

宙世代

一起剪

相关阅读

游客因拍照设备太专业被景区驱赶 工作人员：禁止商业拍摄

骂消费者像狗！广告语引众怒 罗技中国深夜致歉：短视频组被扣除全部绩效

小马智行启动双擎战略 携手合作伙伴布局欧洲

教育部发布“20条负面清单”！

最新评论

读览精华

热门推荐

企业资讯

热门订阅 换一批

中保新知

GMIF创新观察

医线Insight

局市

AI价值官

银莕财经

挖贝网

游客因拍照设备太专业被景区驱赶工作人员：禁止商业拍摄

骂消费者像狗！广告语引众怒罗技中国深夜致歉：短视频组被扣除全部绩效

小马智行启动双擎战略携手合作伙伴布局欧洲

热门订阅换一批