
Anthropic 每次传出新品发布,都会被媒体称为 " 王炸 ",但这次王炸真的来了。外媒曝光了 Anthropic 正处于测试阶段的最强 AI 模型。
Anthropic 的内容管理系统配置出了问题,近 3000 份未发布的内部文档,被放在了公开可访问的数据缓存里。

剑桥大学网络安全研究员亚历山大 · 保韦尔斯(Alexandre Pauwels)和 LayerX Security 的高级研究员罗伊 · 帕斯(Roy Paz)在搜索公开数据时发现了这些文件。
这些文件里有什么?文章草稿、未使用的图片素材、内部活动安排,甚至还有一份标题里带 "parental leave" 的员工文档。
但最引人注目的,是一份详细介绍新模型的草稿。
文件显示,Capybara 和 Mythos 指向同一个底层模型。
前者是产品层级的命名,跟 Opus、Sonnet 一样,后者是模型的代号。就像你可以把一款发动机装进不同型号的车里,Mythos 是那台发动机,Capybara 是那个新车系。
说句题外话,其实千问的卡通形象也是 Capybara,你说这不巧了嘛!

Anthropic 发言人证实,新模型在 " 推理、编码和网络安全 " 方面有 " 有意义的进步 ",代表了 " 阶跃式变化 ",并且该模型已经交付给了极少数早期客户,以进行测试。
但真正让 Anthropic 紧张的不是性能提升,而是网络安全能力的飞跃。
草稿中写道,这款模型 " 在网络能力方面目前远远领先于任何其他 AI 模型 ",并且 " 预示着即将到来的一波模型浪潮,这些模型利用漏洞的能力将远远超过防御者的努力 "。
换句话说,Anthropic 担心黑客会拿这个模型发动大规模网络攻击。
今年 2 月,OpenAI 发布 GPT-5.3-Codex 时,首次将一款模型归类为 " 高网络安全能力 ",它被 OpenAI 拿去训练识别软件漏洞。Opus 4.6 也展现出类似的能力,可以发现代码库中的未知漏洞。
两家公司都清楚,这其实是一把双刃剑。
Capybara 可以是守护天使,也可以是充满恶意的病毒。
所以 Anthropic 为 Capybara 设计了一套谨慎的发布策略。草稿写道:" 在准备发布 Claude Capybara 时,我们希望格外谨慎。因为我们清楚它带来的风险,肯定比测试中能遇到的情况更为严重。"
Anthropic 的具体做法是优先向网络安全防御组织提供早期访问权限,让他们有时间加固代码库,应对即将到来的 AI 攻击浪潮。
文件还提到,这个模型运行成本很高,短期内不会面向普通用户开放。
随后 Anthropic 迅速关闭了公开访问权限。发言人将此归咎于 " 内容管理系统配置中的人为错误 ",并强调这些是 " 考虑发布的早期草稿 "。
但泄露已经发生。Mythos 和 Capybara 成了公开的秘密,Anthropic 的发言人也大大方方地承认了 Mythos 和 Capybara 的存在。
一、Mythos 可能是这个样子的
那么 Mythos 具体会是什么样呢?
先说结论:如果 Mythos 真有 " 阶跃式变化 ",我猜它不只是一个更大的 base model,而是一套 " 模型 + 编排 + 验证 + 风险控制 " 的复合系统。
也就是说,真正跳变的可能不是参数量,而是 " 做长任务时不散架 "。
我的理由很简单,技术会变,但是 Anthropic 自己的大方向不会变。
Anthropic 已经发布了很多关于公司技术路线的博客,比如《Next-generation Constitutional Classifiers: More efficient protection against universal jailbreaks》(下一代分类器:更高效地防范通用越狱攻击),以及《Mitigating the risk of prompt injections in browser use》(降低浏览器使用中提示注入的风险)等等。

先说说安全方面吧,很多人以为杀毒软件还是靠 " 病毒库 " ——就像警察拿着通缉犯照片挨个比对。但实际上,现代杀毒软件和 EDR(端点检测与响应)系统早就不是这么干了。
它们会看文件结构、监控进程行为、分析 API 调用模式、追踪横向移动轨迹,甚至用机器学习判断 " 这个行为像不像攻击 "。
换句话说,现代安全系统已经不只是在找 " 已知的坏人 ",而是在识别 " 可疑的行为模式 "。
Mythos 可能把这个逻辑又往前推了一步。它能理解攻击的语义。
通过理解一段代码、一串工具调用、一段对话,判断是不是在构造一条真实可执行的攻击链。
比如它能分辨出:这不是普通的压缩脚本,而是在做规避扫描、自启动、凭据窃取这一整套动作;这不是正常的渗透测试问答,而是在拼接 exploit、持久化、横移、出网这几个步骤。
Mythos 很可能具备 " 漏洞泛化发现 " 能力。
Anthropic 在今年 2 月的博客中提到,Opus 4.6 找零日漏洞的方式不像传统 fuzzing 那样乱撞,而是通过理解代码语义、历史修复模式和相似 bug 特征,去找 " 还没被修掉的同类漏洞 "。
看到一个漏洞后,它就能立刻联想到 " 其他地方是不是也存在类似的漏洞 "。
Mythos 在推理方面的提升,可能也不单单是说 benchmark 分数又高了几分。
比如它可能在思考过程中更少出现中途漂移,更少为了迎合用户而过度自信,更会显式区分 " 已知、推断、未知 ",更会在不确定时保守行动等等。
这和安全是同一类底层能力。因为好的模型不只是更会生成答案,而是更会管理自己的不确定性。
Claude 的一大重点就是编程。所以我觉得在编程能力上,Mythos 可能不只是 " 把代码写地更好 ",而是从 " 会写代码 " 变成 " 会经营代码库 "。
Mythos 可能会把模块边界、依赖关系、历史 patch 风格、测试习惯放在一起进行建模。
它会先拆改动图、再分批落 patch,而不是想到哪改到哪;写完代码后会主动补测试、跑静态检查,根据失败日志回滚到更稳的方案。
这种能力对真实工程项目的价值,远超在测试集上多做对几道题。
当然最终要落到的地方,肯定是在线束(harness)上,Mythos 很可能实现了从 " 单次回答强 " 到 " 整条执行链稳 " 的跨越。
它会把大任务拆成可验证的小阶段,多个子任务并行执行再汇总结果,在长链条里保留关键状态、丢掉噪声。某一步报错时不需要从头来过,只要找到问题发生地,对其局部进行修复,就可以继续执行任务。
就像游戏里的检查点,如果你没有通过某一个 BOSS,你不需要从头开始打整个章节,你会被传送到上一个检查点。
这就像工业控制里的 " 线束管理 " ——不是某一根线更粗,而是整个连接、隔离、容错、标记、回路设计更合理。
长上下文能力的提升可能也不只是 " 窗口更大 ",而是 " 上下文利用率更高 "。
现在的大模型,一说上下文窗口,每个都说自己能装下几十万字,但是一问它全文重点或者文档关系,立刻就哑巴了。
Mythos 如果真有进步,可能体现在更强的重点检测、更好的层级摘要、更准的跨文档对齐,以及更有效的持续记忆写回机制。
在工具使用上,Mythos 可能从 " 会调工具 " 升级到 " 会设计实验 "。
Anthropic 已经在推 computer use、terminal、browser 这套能力,但真正的跨越不是 UI 自动化更强,而是知道什么时候该读代码、什么时候该跑测试、什么时候该查文档。
如何设计最小验证闭环、避免无效探索、控制成本。
通俗说,就是从 " 会操作电脑 " 升级到 " 会像工程师那样做排障实验 ",甚至于是说 " 碰到问题时,会原地掏出一个机床自己制造一个特化对口的工具来处理问题 "。
二、还有呢?
反正都猜这么多了,不妨咱们就再往深了猜猜,我觉得 Mythos 的提升很可能来自几种训练和推理技巧的叠加。
第一是更重的测试时计算,也就是模型会根据任务难度动态分配更多 " 思考预算 ",在关键步骤上做更长、更深的推理,而不是一口气线性吐完答案。
就像考试,普通的 AI 都是闭卷快答选手,不管是 1 分的选择题,还是 20 分的压轴大题,都是扫一眼就动笔,写一步不回头,匀速写完拉倒,哪怕题很难,也是顺嘴瞎编凑数。
Mythos 是学霸,拿到题先分难度,简单题秒答不浪费时间;遇到复杂大题、关键步骤,就多打草稿、多琢磨几遍,算对了再往下写,卡壳了就停下来多想一层,绝不会张嘴就来。
第二是更偏向 agent 轨迹的强化学习,训练目标不再只是 " 最后一句话答对了没有 ",而是 " 整条任务链有没有成功完成 ",包括怎么拆计划、何时调用工具、何时停下来验证、出错后如何回退。
原来的训练方式是只看 " 项目最后有没有交差 ",哪怕实习生中间瞎搞、找别人代做、步骤全错,最后蒙对了结果,就发奖金。
要是中间全对,最后一步手抖错了,直接扣钱,完全不管过程。
Mythos 是全程盯流程,不仅看最后项目成没成,还要看你会不会把大项目拆成一步一步的小计划,什么时候该查资料、用工具,什么时候该停下来核对前面的内容,做错了会不会回头修正。
第三是更强的 verifier,也就是某种内置的审稿人或质检员,在代码场景里检查 patch 是否真的成立,在安全场景里检查输出是否显著增加攻击可执行性。
这个你就当成是公众号发文章。普通 AI 是作者写完了直接发,不管有没有错别字、事实错误、合规风险,发出去出问题再说。
Mythos 就和字母 AI 一样,要有提纲、要有多道审核、还要去求证等等。这篇文章除外。
第四是更细粒度的风险监控,不只看最终文本,而是看模型内部表征和中间轨迹,判断它是不是正在形成一条危险的攻击链。
这也是为什么我一直拿现代杀毒软件和 EDR 来类比。过去的杀毒软件更像 " 对照病毒库 ",今天的安全系统更像 " 识别可疑行为模式 "。
如果把这个逻辑搬到大模型里,Mythos 的安全能力就可能不是靠硬编码关键词,而是靠对任务语义、工具调用顺序、代码行为和中间状态的综合判断。
它识别的不是 " 某个坏答案 ",而是 " 这个请求会造成怎样的后果 "。一旦这种能力成熟,安全就不再只是一个外挂过滤器,而会变成模型推理过程本身的一部分。
如果把这些能力串起来看,Mythos 可能会是一个将语义泛化、长任务稳定性、工具编排、风险控制这几件事给融合起来的新产品。
这也解释了为什么 Anthropic 对 Mythos 如此谨慎。
一个能理解攻击语义、能泛化发现漏洞、能编排长链条任务、能自主使用工具的 AI,这已经是敲响 AGI 的防盗门了。
但这里有个更深层的问题:当 AI 的攻击能力开始系统性地超过防御能力,整个网络安全的平衡会不会被打破?
如果未来几个月 Anthropic 真的正式发布 Mythos 或者 Capybara,那么最应该盯紧的是它在 computer use、terminal、browser 这类长任务环境里的稳定性。
因为这类场景最能暴露一个模型到底只是 " 单轮回答强 ",还是已经具备 " 持续执行 " 的系统能力。真正的阶跃式变化,最后都会反映在这些难以伪装美化的指标上。
从这个角度看,Mythos 泄密事件的真正意义,是揭示了 AI 发展的下一个临界点。
而这个临界点,可能比我们想象的来得更快。
本文来自微信公众号:字母 AI,作者:苗正