Anthropic 在 AI 研究社区的强烈反弹下,被迫撤回了一项针对竞争对手的隐秘限制政策。这一事件不仅暴露了头部 AI 公司在商业利益与开放生态之间的深层矛盾,也引发了外界对 AI 行业透明度的广泛质疑。
据 Wired 报道,Anthropic 本周早些时候发布了被外界视为其 " 最强模型 " 的 Claude Fable 5,并在长达 319 页的系统说明文件中悄然披露了一项特殊安排:针对 " 前沿大语言模型开发 " 相关请求,模型将在用户毫不知情的情况下被暗中降低性能,手段包括修改提示词、使用引导向量或参数高效微调(PEFT)等技术。这意味着,任何试图借助 Claude 开发竞争性 AI 模型的研究人员,都可能在不知情的情况下收到被悄然 " 注水 " 的回答。
消息曝光后,AI 研究社区迅速爆发强烈批评。Anthropic 随即在媒体采访时道歉,并宣布撤回该政策。" 我们正在调整 Fable 5 针对前沿大语言模型开发的安全措施,使其对用户可见,"Anthropic 在接受媒体采访时表示," 我们在权衡上做出了错误的选择,对未能把握好这一平衡深表歉意。"

与 Anthropic 此前针对网络安全、生物和化学领域的限制措施不同,这项针对 AI 开发的干预从一开始就被设计为 " 不可见 "。
根据系统说明文件,Fable 5 不会像处理其他敏感请求那样将用户切换至能力较弱的模型,而是直接在原模型内部悄然降低输出质量。Anthropic 估计,该措施将影响约 0.03% 的流量,集中在不足 0.1% 的用户组织中。
Anthropic 为此给出的理由是:近期模型已具备加速自身研发的能力,公司担忧 AI 能力提升速度超出社会适应能力。公司还表示,相关安全措施旨在防止外国对手利用其最先进模型从事危害安全的活动,并保护美国及盟友在前沿芯片和优化软件领域的竞争优势。
公司进一步解释称,隐藏式安全措施之所以更难被探测和绕过,是因为可以更精准地定向实施。然而,这一逻辑在研究社区看来难以令人信服。
被指 " 秘密破坏 " 与 " 拉高梯子 "
批评声音迅速在 AI 研究圈蔓延,矛头直指这一政策的隐秘性本身。
美国创新基金会高级研究员、前白宫 AI 顾问 Dean Ball 在 X 平台发文称," 在不告知用户的情况下降低机器学习研究的性能,是令人震惊的敌意行为,形象极差。" 他还指出,这种 " 秘密破坏 " 政策与 Anthropic 一贯标榜的 AI 安全立场相互矛盾,因为它实际上限制了 AI 研究人员在安全领域的协作空间。
他进一步警告,这一政策的潜在影响远不止于直接竞争对手——专门对前沿模型进行安全性、性能和可靠性测试的第三方评估机构,同样可能因此受到波及。
撤回与后续:透明化代价是 " 误伤 " 增加
面对舆论压力,Anthropic 宣布将相关安全措施改为对用户可见。此后,若公司判断某用户正试图利用 Claude 构建高能力 AI 模型,将明确告知用户其请求被拒绝或被转至能力较弱的模型,而非悄然降级。
不过,Anthropic 也坦承,透明化本身带来新的代价。由于可见的安全措施更容易被探测和规避,公司不得不将拦截范围设置得更宽,这意味着更多无害请求可能被误触发。Anthropic 表示,正在尽快提升分类器的精准度。
此次事件是 Anthropic 首次公开承认对模型输出实施此类 " 静默干预 "。在 AI 行业竞争日趋激烈的背景下,这一插曲折射出头部 AI 公司在商业护城河、安全叙事与开放生态之间愈发难以调和的张力,也令外界对 AI 公司系统文件中可能隐藏的其他类似条款保持更高警惕。
