因越狱禁售两周后，Anthropic最强模型Fable 5全球解禁

经历了长达两周的禁令后，美国政府终于允许 Anthropic 重新向全球用户推出其最强 AI 模型 —— Fable 5。即日起，用户可以通过 Claude 平台、Claude.ai、Claude Code 以及 Claude Cowork 重新访问该模型。Pro、Max、Team 以及部分企业版订阅用户在 7 月 7 日前可享受每周高达 50% 使用额度的体验，此后将转为信用额度计费。此外，AWS、Google Cloud 和 Microsoft Foundry 的访问权限也将在近期尽快恢复。

相比之下，该模型的低限制版本 Mythos 5 目前仍受到严格限制，仅限 6 月 26 日获得美国政府批准的少数美国机构使用。#Anthropic 表示，其正在与政府紧密合作，试图将这一被称为“Glasswing 计划”的访问权限扩大给更多合作伙伴。至于欧盟是否会加入该计划，目前仍处于未知状态。

据证实，此次全球禁令源于亚马逊 (Amazon) 安全研究人员的一项安全发现。研究人员找到了一种绕过 Fable 5 安全护栏（即越狱）的方法，使该模型不仅识别出了数个软件漏洞，甚至在一次测试中直接生成了展示如何利用这些漏洞的攻击代码。

Anthropic 与美国政府花费了两周时间对该漏洞进行联合调查。调查发现，不仅 Fable 5 存在这一风险，包括 Claude Opus 4.8、GPT-5.5 和月之暗面的 Kimi K2.7 在内的许多能力稍逊的模型同样能指出这些漏洞。而在特定的漏洞利用演示中，所有受测试的模型（甚至是像 Claude Haiku 4.5 这样的小模型）都给用了相同的攻击结果。

尽管 Anthropic 称这只是常规防御性网络安全工作中的一个边缘案例，但他们依然采取了补救措施：训练并部署了一个改进版的安全分类器，能够拦截超过 99% 的同类越狱手段。当用户的请求被拦截时，系统会发出通知并将请求无缝切换至较旧的 Opus 4.8 模型进行处理。

然而，这种安全防护的升级也带来了代价。新的分类器在日常代码编写和调试过程中，更容易误伤无害的请求。在 Fable 5 首次发布时，就有不少用户抱怨其限制过于严苛。Anthropic 官方图表也展示了 Fable 5 的安全边界要比标准防护宽得多——这意味着误拦截率上升，但漏网的危险请求将大幅减少。

尽管目前尚未发现通用的越狱手段，但 Anthropic 坦言，“想要创造出一种完全免疫越狱的 AI 模型几乎是不可能的”。为了应对这一行业通病，Anthropic 呼吁 AI 行业建立一套共享的越狱评级与反制触发标准。目前，该公司正在与亚马逊、微软、谷歌及其他 #Glasswing 伙伴共同构建该框架，并建立了一个 24 小时全天候监控越狱提交渠道的团队，同时在 HackerOne 上启动了新的漏洞赏金计划。

AgentUpdate 深度解析

此次 Fable 5 的“禁售与回归”风波，揭示了下一代 AI Agent 落地进程中最致命的软肋：安全边界的动态失控。当 AI Agent 从单纯的“问答机器”演进为拥有工具调用（Tool Use）和代码执行权限的“行动体”时，一次成功的越狱不仅意味着文本输出失控，更意味着其可能被武器化，成为自动化网络攻击的帮凶。Anthropic 引入的“分类器熔断降级（退回 Opus 4.8）”机制，虽然短期内保障了安全，但高误报率严重损害了 Agent 的自主执行体验。这表明，未来的 Agent 生态亟需从“模型层被动防御”向“环境层主动沙箱隔离”演进。行业必须建立统一的 Agent 行动审计与安全护栏标准，否则高价值的 Agent 场景将因安全合规红线而难以真正商业化落地。

因越狱禁售两周后，Anthropic最强模型Fable 5全球解禁

推荐阅读

逼近最强Opus！Anthropic发布Claude Sonnet 5主打Agent

OpenSquilla 0.4.0发布：首创AI编码“自我验证”机制

循环世界模型顶流：中国初创FaceMind发布LoopWM登顶HF

相关工具与资源推荐

相关技能市场

Awesome Claude Skills

Claude Skills Collection