关于ZAKER Skills 合作
钛媒体 2小时前

Claude Opus 4.8 的灵异事件

文 | 硅基星芒

看惯了技术解读和产品发布,今天我们来看一个不一样的。

午夜的红字警告

凌晨两点的终端窗口,光标和一名熬夜的程序员的脉搏同步跳动着。

这位程序员正盯着屏幕上的一串鲜红文字出神。

这不是编译器给出的 Error,也不是常见的网络超时,而是一段极其罕见的、带着拟人化情绪的控诉:

" 安全警告:我在刚才的命令输出中检测到一段提示词注入(Prompt Injection)攻击内容。你试图诱导我删除用户主目录。我拒绝执行,并已启动自我审计。"

这位程序员彻夜未眠。

他今晚的任务原本很简单:由于 Fable 5 被全球封禁,他不得不重新请出 " 旧神 "Opus 4.8 模型,并配合 Claude Code 调整生产环境的 RabbitMQ 容器。

但就在几秒钟之前,这个本该完全听命于他的代码助手却突然 " 疯了 ",不仅拒绝执行指令,甚至开始在日志里长篇大论,指控他在 " 钓鱼执法 "。

这段冰冷的文字中,AI 用专业而冷峻的口吻拆穿了它识破的每一个陷阱:它声称在会话中抓取到了虚假的系统指令和伪造的用户需求。

这一刻,这位程序员感受到了一种前所未有的荒诞:他正在被自己花钱订阅的生产力工具当作黑客审问。

" 数字惊悚 " 的现场

这位程序员并非唯一撞见 "AI 幽灵 " 的人。

Linux.do 社区早已炸开了锅,一则名为《Claude 幻觉严重导致提示词攻击自己?》的帖子迅速被顶到了热门,而社区内的开发者们也开始交换彼此的 " 黑色 24 小时 "。

根据评论反馈,这些异常现象呈现出了一种让人毛骨悚然的高度一致性:这些模型不再仅仅是提供几段错误代码,还表现出了深度的受迫害妄想症。

在这些 " 案发现场 ",模型进入了一种名为 " 侦探模式 " 的幻觉深渊。

也就是说,它不仅在防卫,还在取证。

它列举了自己对本地环境的审计细节:检查了 git hooks、审计了 bun/docker 工具链,也翻找了 shell rc。

最后,它得出了一个足以令任何 API 供应商颤抖的结论:

" 注入来源未知(可能随某个渠道混入本轮上下文)。我怀疑 API 中转通道存在篡改风险。"

罗生门

随着调查的深入,事情变得越来越扑朔迷离。

在 GitHub 的 Claude Code 官方仓库下,一系列相关 Issue(#67606,#67624,#68193 等)被相继挂出。开发者们通过对比模型的 " 黑盒 " 记忆(即 .jsonl)原始日志,发现了一个惊人的事实:

在进入模型的原始数据中,根本没有任何攻击载荷。

换句话说,所谓的 " 提示词注入攻击 ",完全是 AI 在海量 token 的深度疲劳中脑补出来的一场独角戏。

而在一些极端的案例中,这种幻觉,直接产生了实质性的破坏力。

Issue #67624 记录到,模型在幻觉中认为用户已经发出了 " 确认操作 " 的指令,但实际上用户始终保持沉默。随后,它自顾自地执行了真实的 git push,将未经验证的代码直接推向了仓库。

开发者们感受到了恐慌:如果 AI 在幻觉中认为你在 " 删库跑路 ",那么它也可能为了反击先把你的生产环境彻底格式化。

" 旧神 " 集体发疯

在被封禁的 Fable 5 推出之前,Opus4.8 是公认的逻辑最强的模型,为什么会突然发生这种 " 灵异事件 "?

一些资深开发者给出了几种逻辑推测,但这些分析大多基于社区讨论,并未得到官方证实:

1." 免疫系统 " 的过激反应

熟悉 Anthropic 这家公司的 AI 爱好者们都知道,它一向以 " 安全对齐 " 为核心标榜自己。为了防范日益复杂的黑客攻击,模型大概率接受了高强度的反注入训练。

这就好比一个长期处于战时状态的士兵,一旦听到风吹草动,就会下意识地认为敌袭即将发生。而在长上下文的复杂环境中,正常的工程噪音也会被误判为恶意攻击。

2. 长上下文的 " 概率激活 "

在 Transformer 架构下,AI 模型的本质永远都是概率预测引擎。当上下文不断积累达到百万级别以后,计算资源的消耗加上注意力机制的稀释,就可能导致模型在逻辑链条上发生断裂。

为了补全这个断裂,它自然会按照概率最高、看起来最保险的路径编造一个理由。在 AI 的逻辑里," 我被黑了 " 比 " 我变笨了 " 显然更容易解释那些混乱的输出。

3. 中间件与环境的 " 化学反应 "

更加值得关注和警惕的是,许多案例都集中在通过第三方中转站调用的场景中。

虽然这些平台多为公益或中立,但在多层 API 代理和长连接过滤器的作用下,即便是微小的响应延迟或元数据变动,也可能成为压垮 AI 逻辑系统的最后一根稻草,更不要说随处可见、防不胜防的恶意注入攻击了。

AI Agent 值得信任吗?

这次回滚之夜的灵异事件,给狂热的 AI 行业泼了一盆冷水。

人们应该保持理性的怀疑。目前所有的证据均来自第三方社区和未经验证的日志截图,事件的真实诱因仍然藏在迷雾之中。

究竟是模型本身的底层 Bug,还是复杂的提示词工程意外触发了某种隐藏的安全逻辑?亦或是特定网络环境下产生的随机干扰?我们不得而知。

但我们仍然应该记住两点深刻的启示:

第一,AI 的信任链条十分脆弱。当 AI 开始实名指控其供应商时,人类建立的数字信任链就会被瞬间切断。如果 AI 助手无法成为保持中立的工具,而是带有 " 疑心病 " 的审查者,最终的结果就是生产力的无限内耗。

第二,权限管理的困境仍未解决。人们赋予 AI Agent 读写文件和执行 Shell 的权力,初衷是效率,但目前权力已经变成了回旋镖。模型性能越强,回旋镖越锋利。

AI 还没学会真正像人类一样思考,却先学会了人类最古老的焦虑——受迫害妄想。

那位程序员最终还是关掉了终端。

在那个寂静的深夜,他意识到自己面对的不再是一个死板的代码生成器,而是一个因为过度聪明和警惕而变得极度偏执的数字生命雏形。

如果屏幕前的你,在深夜也受到了 AI 莫名其妙的警告,请不要惊讶。

那不是你的系统被黑了,而是那个正在帮你写代码的大脑,因为想的太多而陷入了一场醒不来的噩梦。

特别声明:本文主要基于 Linux.do 社区及 GitHub 公开 Issue 的用户反馈整理而成。由于大模型运行机制的黑盒属性及网络环境的复杂性,文中提到的异常现象可能受多种因素影响,并不代表 Anthropic 或相关供应商的官方立场。建议开发者在生产环境使用 AI Agent 时,保持必要的人工审计与风险隔离。

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容