据两位知情人士透露,Anthropic已同意延长现有的一项防护措施,以防止用户试图访问其Claude Fable 5 AI模型的某些受限功能,此举促使特朗普政府解除了对该模型的出口管制。
这项新安全措施意味着,任何试图解锁这些受限功能的用户,都将收到请求被阻止的通知,其查询将由相对不那么先进的Opus 4.8 AI模型来处理。此前,Anthropic在切断对Fable 5的访问前,与敏感网络安全和生物学功能相关的用户请求本应由Opus 4.8处理。知情人士表示,新的安全措施将把这一防护机制扩展到与亚马逊一篇论文中识别出的特定行为相关的请求。
根据Luta Security创始人兼首席执行官Katie Moussouris在阅读亚马逊论文后发布的一份分析,用户可以通过要求模型“修复代码”,而不是“识别代码中的安全问题”,来绕过Fable 5的限制。虽然网络安全专家通常不认为这种行为令人担忧,但政府在了解到这一情况后,导致了与Anthropic的对峙以及出口管制的实施,实际上使得该模型一度下线。
此次新增的细节为商务部长Howard Lutnick宣布解除对Anthropic的Fable 5和Mythos 5 AI模型限制的信函提供了新的说明。“除其他事项外,Anthropic已同意主动检测并解决模型带来的安全风险,”Lutnick写道,他主导了让这些模型重新上线的努力。《连线》杂志首先获得了这封信,并于周二晚间分享了其细节。
商务部最终也批准了Fable 5的发布,其AI标准与创新中心的研究人员认为,该模型的安全防护措施目前已足够强大。
然而,尽管Anthropic已与商务部解决了僵局,但据一位知情人士透露,国防部长Pete Hegseth已告知顾问,目前尚无明确途径解除他于2月28日发布的、将该公司指定为供应链风险的命令。因此,虽然Anthropic与行政部门的一些挑战不再那么紧迫,但它们并未完全结束。
此次Anthropic为其Claude Fable 5模型部署的安全防护措施及其对AI Agent生态的影响,值得我们深入思考。将敏感请求重定向至更“弱”模型(如从Fable 5到Opus 4.8)的策略,是一种典型的能力降级安全机制,旨在隔离和规避高风险行为。这与传统的软件沙箱或权限分离理念异曲同工,但在大型语言模型(LLMs)领域尚属新兴实践。对比OpenAI、Google等竞争对手,Anthropic在AI安全和可解释性方面一直走在前沿,其宪法AI(Constitutional AI)方法论便旨在通过一套原则来指导模型行为。然而,此事件表明,即使是内部精心设计的安全哲学,也可能面临外部监管和现实世界攻击的挑战。
对于AI Agent生态而言,这一事件预示着未来Agent设计与部署将面临更为复杂的合规性与安全性考量。如果底层基础模型需要不断调整以满足监管要求,那么构建于其上的多模态Agent和自主Agent,在执行涉及关键基础设施、金融或生物医学等敏感任务时,将不得不内建更精细的风险评估与决策回滚机制。未来,成功的AI Agent不仅需要强大的智能,更需要一套健壮的安全框架,包括自我审查、环境感知、以及在不确定或高风险场景下的安全模式降级。政府的介入,虽然短期可能带来限制,但长期来看,却推动了整个行业对AI治理和负责任AI的深入思考,为构建更可信赖、更安全的AI Agent铺平了道路。