逼近最强Opus！Anthropic发布Claude Sonnet 5主打Agent

Anthropic 正式推出了其最新一代中端模型 Claude Sonnet 5。根据官方最新修正的 BrowseComp 基准测试数据，Sonnet 5 的表现已基本与旗舰级模型 Opus 4.8 持平，并拉大了与前代产品 Sonnet 4.6 的差距。不过，业界关注的悬念依然在于，如果该模型在执行任务时消耗了更多的 Token，那么它在实际应用中的高性价比是否会打折扣。

Anthropic 官方将 Sonnet 5 称为“迄今为止最具 Agent 属性（agentic）的 Sonnet 模型”。它具备自主制定计划、灵活调用浏览器和终端等工具进行自主协作的能力。在几个月前，这种级别的自主执行能力还只有体量更大、价格更昂贵的旗舰模型才能勉强实现。如今，Sonnet 5 正致力于彻底打破这一性价比壁垒。

在公开的基准测试中，Sonnet 5 展现出了全面排挤前代 Sonnet 4.6 的强劲势头，并直逼高价的 Opus 4.8。在智能体编程测试 SWE-bench Pro 中，Sonnet 5 取得了 63.2% 的成绩（前代为 58.1%，Opus 4.8 为 69.2%）；在终端控制测试 Terminal-Bench 2.1 中，其得分从前代的 67.0% 飙升至 80.4%。而在考察多学科推理能力的 Humanity's Last Exam（使用工具辅助）中，Sonnet 5 拿下了 57.4%，几乎与 Opus 4.8 的 57.9% 齐平。此外，在模拟真实电脑操作的 OSWorld-Verified 任务中，Sonnet 5 跑出了 81.2%，超越了前代的 78.5%。

特别是在真实世界知识任务基准 GDPval-AA v2 中，Sonnet 5 甚至以 1,618 分的微弱优势反超了 Opus 4.8 的 1,615 分。早期尝鲜合作伙伴的反馈也印证了这一点：Sonnet 5 在搜索等任务的处理上展现出了远胜以往的 Agent 自主性。与此同时，在安全合规性方面，由于此前 #Anthropic 的顶级模型 Mythos 5 和 Fable 5 因网络安全隐忧而受到美国政府的部署限制，Anthropic 在此次发布中格外注重安全规避。Sonnet 5 未经过网络安全攻击任务的特定训练，其编写软件漏洞等高危能力评估得分远低于 Opus 4.8 和 Mythos 5（在 Firefox 147 漏洞利用评估中，其完全控制率仅为 13.2%），这也帮助其成功规避了监管红线。

AgentUpdate 深度解析

Claude Sonnet 5 的发布标志着 AI Agent 生态正加速迈向“高性价比自主化”的新阶段。从技术演进来看，Sonnet 5 并没有一味追求基础参数规模的扩张，而是通过优化工具调用（Tool Use）、终端交互与多步骤长上下文规划，在 #SWE-bench Pro 和 #OSWorld 等强 Agent 基准上实现了对大模型的降维打击。这种“以中端模型成本提供旗舰级 Agent 体验”的策略，将直接利好以 Cursor、Devin 以及各类企业级工作流 Agent 为代表的端到端应用。横向对比来看，尽管 OpenAI 等竞品在推理能力（如 o1 系列）上筑起壁垒，Anthropic 则通过强化 Sonnet 5 的底层操作（Computer Use）和工具协同效率，巩固了其作为 Agent 开发者首选基座模型的地位。长远来看，限制 Agent 大规模落地的核心痛点不仅是能力，更是 Token 消耗与计算成本。未来，如何在保障极高 Agent 规划成功率的前提下，降低推理过程中的 Token “空转”浪费，将是决定 Sonnet 5 能否在生产环境中真正颠覆传统工作流的关键战场。