SOURCE // NEWS

Hugging Face CEO 谈 Anthropic 模型安全标签争议

Hugging Face CEO 谈 Anthropic 模型安全标签争议

在人工智能安全标准日益收紧的当下,关于如何界定 AI 模型安全红线的争议正愈演愈烈。近日,开源 AI 社区巨头 Hugging Face 的联合创始人兼首席执行官 Clément Delangue 针对 Anthropic 等闭源厂商为其前沿模型贴上“危险”标签的作法发表了看法。他指出,由单一商业公司在闭门环境下定义模型的危险系数,不仅缺乏客观标准,还可能对整个开源生态造成不必要的恐慌。

此前,#Anthropic 在其最新的“负责任缩放政策”(Responsible Scaling Policy)中引入了严格的 AI 安全等级(ASL-3)划分。当模型在网络安全、生物危害或自主复制等领域表现出特定敏感能力时,将被标记为存在潜在“灾难性风险”,并触发强化的物理与数字安全防御措施。然而,Delangue 认为,这种缺乏外部审计的黑盒评估机制极易演变为商业竞争的壁垒,从而将中小型开发者和研究机构排除在先进技术之外。

Delangue 强烈呼吁,AI 安全不应成为专有实验室的独角戏。他强调,应当利用开源社区的力量,通过开放的红队测试和多维度的透明评测基准,来共同构建安全防御体系。只有将安全评估置于阳光下,行业才能在真正的安全与技术创新之间找到最佳平衡点。

AgentUpdate 深度解析

随着 AI Agent 从简单的对话助手演变为具备自主规划、工具调用乃至自动编码能力的复杂行动体,其安全边界正面临前所未有的挑战。Anthropic 的“受控闭源安全”与 Hugging Face 的“去中心化开源审计”两条路线的博弈,将深远地影响 Agent 生态的走向。对于自主 Agent 而言,过于宽泛或主观的“危险”标签,可能会直接阉割其在复杂工业场景(如自动化网安渗透测试、新药研发探索)中的高阶推理与执行能力。相反,通过 MCP(模型上下文协议)等开放生态标准,将安全边界下沉至环境沙箱与可观测性(Observability)治理框架中,实现安全评估的模块化与透明化,才是推动高性能 Agent 安全落地、避免生态割裂的必由之路。