Hugging Face CEO 谈 Anthropic 模型安全标签争议

在人工智能安全标准日益收紧的当下，关于如何界定 AI 模型安全红线的争议正愈演愈烈。近日，开源 AI 社区巨头 Hugging Face 的联合创始人兼首席执行官 Clément Delangue 针对 Anthropic 等闭源厂商为其前沿模型贴上“危险”标签的作法发表了看法。他指出，由单一商业公司在闭门环境下定义模型的危险系数，不仅缺乏客观标准，还可能对整个开源生态造成不必要的恐慌。

此前，#Anthropic 在其最新的“负责任缩放政策”（Responsible Scaling Policy）中引入了严格的 AI 安全等级（ASL-3）划分。当模型在网络安全、生物危害或自主复制等领域表现出特定敏感能力时，将被标记为存在潜在“灾难性风险”，并触发强化的物理与数字安全防御措施。然而，Delangue 认为，这种缺乏外部审计的黑盒评估机制极易演变为商业竞争的壁垒，从而将中小型开发者和研究机构排除在先进技术之外。

Delangue 强烈呼吁，AI 安全不应成为专有实验室的独角戏。他强调，应当利用开源社区的力量，通过开放的红队测试和多维度的透明评测基准，来共同构建安全防御体系。只有将安全评估置于阳光下，行业才能在真正的安全与技术创新之间找到最佳平衡点。

AgentUpdate 深度解析

随着 AI Agent 从简单的对话助手演变为具备自主规划、工具调用乃至自动编码能力的复杂行动体，其安全边界正面临前所未有的挑战。Anthropic 的“受控闭源安全”与 Hugging Face 的“去中心化开源审计”两条路线的博弈，将深远地影响 Agent 生态的走向。对于自主 Agent 而言，过于宽泛或主观的“危险”标签，可能会直接阉割其在复杂工业场景（如自动化网安渗透测试、新药研发探索）中的高阶推理与执行能力。相反，通过 MCP（模型上下文协议）等开放生态标准，将安全边界下沉至环境沙箱与可观测性（Observability）治理框架中，实现安全评估的模块化与透明化，才是推动高性能 Agent 安全落地、避免生态割裂的必由之路。