SOURCE // NEWS

因越狱禁售两周后,Anthropic最强模型Fable 5全球解禁

因越狱禁售两周后,Anthropic最强模型Fable 5全球解禁

经历了长达两周的禁令后,美国政府终于允许 Anthropic 重新向全球用户推出其最强 AI 模型 —— Fable 5。即日起,用户可以通过 Claude 平台、Claude.ai、Claude Code 以及 Claude Cowork 重新访问该模型。Pro、Max、Team 以及部分企业版订阅用户在 7 月 7 日前可享受每周高达 50% 使用额度的体验,此后将转为信用额度计费。此外,AWS、Google Cloud 和 Microsoft Foundry 的访问权限也将在近期尽快恢复。

相比之下,该模型的低限制版本 Mythos 5 目前仍受到严格限制,仅限 6 月 26 日获得美国政府批准的少数美国机构使用。#Anthropic 表示,其正在与政府紧密合作,试图将这一被称为“Glasswing 计划”的访问权限扩大给更多合作伙伴。至于欧盟是否会加入该计划,目前仍处于未知状态。

据证实,此次全球禁令源于 亚马逊 (Amazon) 安全研究人员的一项安全发现。研究人员找到了一种绕过 Fable 5 安全护栏(即越狱)的方法,使该模型不仅识别出了数个软件漏洞,甚至在一次测试中直接生成了展示如何利用这些漏洞的攻击代码。

Anthropic 与美国政府花费了两周时间对该漏洞进行联合调查。调查发现,不仅 Fable 5 存在这一风险,包括 Claude Opus 4.8GPT-5.5 和月之暗面的 Kimi K2.7 在内的许多能力稍逊的模型同样能指出这些漏洞。而在特定的漏洞利用演示中,所有受测试的模型(甚至是像 Claude Haiku 4.5 这样的小模型)都给用了相同的攻击结果。

尽管 Anthropic 称这只是常规防御性网络安全工作中的一个边缘案例,但他们依然采取了补救措施:训练并部署了一个改进版的安全分类器,能够拦截超过 99% 的同类越狱手段。当用户的请求被拦截时,系统会发出通知并将请求无缝切换至较旧的 Opus 4.8 模型进行处理。

然而,这种安全防护的升级也带来了代价。新的分类器在日常代码编写和调试过程中,更容易误伤无害的请求。在 Fable 5 首次发布时,就有不少用户抱怨其限制过于严苛。Anthropic 官方图表也展示了 Fable 5 的安全边界要比标准防护宽得多——这意味着误拦截率上升,但漏网的危险请求将大幅减少。

尽管目前尚未发现通用的越狱手段,但 Anthropic 坦言,“想要创造出一种完全免疫越狱的 AI 模型几乎是不可能的”。为了应对这一行业通病,Anthropic 呼吁 AI 行业建立一套共享的越狱评级与反制触发标准。目前,该公司正在与亚马逊、微软、谷歌及其他 #Glasswing 伙伴共同构建该框架,并建立了一个 24 小时全天候监控越狱提交渠道的团队,同时在 HackerOne 上启动了新的漏洞赏金计划。

AgentUpdate 深度解析

此次 Fable 5 的“禁售与回归”风波,揭示了下一代 AI Agent 落地进程中最致命的软肋:安全边界的动态失控。当 AI Agent 从单纯的“问答机器”演进为拥有工具调用(Tool Use)和代码执行权限的“行动体”时,一次成功的越狱不仅意味着文本输出失控,更意味着其可能被武器化,成为自动化网络攻击的帮凶。Anthropic 引入的“分类器熔断降级(退回 Opus 4.8)”机制,虽然短期内保障了安全,但高误报率严重损害了 Agent 的自主执行体验。这表明,未来的 Agent 生态亟需从“模型层被动防御”向“环境层主动沙箱隔离”演进。行业必须建立统一的 Agent 行动审计与安全护栏标准,否则高价值的 Agent 场景将因安全合规红线而难以真正商业化落地。