Anthropic 正式推出了其最新一代中端模型 Claude Sonnet 5。根据官方最新修正的 BrowseComp 基准测试数据,Sonnet 5 的表现已基本与旗舰级模型 Opus 4.8 持平,并拉大了与前代产品 Sonnet 4.6 的差距。不过,业界关注的悬念依然在于,如果该模型在执行任务时消耗了更多的 Token,那么它在实际应用中的高性价比是否会打折扣。
Anthropic 官方将 Sonnet 5 称为“迄今为止最具 Agent 属性(agentic)的 Sonnet 模型”。它具备自主制定计划、灵活调用浏览器和终端等工具进行自主协作的能力。在几个月前,这种级别的自主执行能力还只有体量更大、价格更昂贵的旗舰模型才能勉强实现。如今,Sonnet 5 正致力于彻底打破这一性价比壁垒。
在公开的基准测试中,Sonnet 5 展现出了全面排挤前代 Sonnet 4.6 的强劲势头,并直逼高价的 Opus 4.8。在智能体编程测试 SWE-bench Pro 中,Sonnet 5 取得了 63.2% 的成绩(前代为 58.1%,Opus 4.8 为 69.2%);在终端控制测试 Terminal-Bench 2.1 中,其得分从前代的 67.0% 飙升至 80.4%。而在考察多学科推理能力的 Humanity's Last Exam(使用工具辅助)中,Sonnet 5 拿下了 57.4%,几乎与 Opus 4.8 的 57.9% 齐平。此外,在模拟真实电脑操作的 OSWorld-Verified 任务中,Sonnet 5 跑出了 81.2%,超越了前代的 78.5%。
特别是在真实世界知识任务基准 GDPval-AA v2 中,Sonnet 5 甚至以 1,618 分 的微弱优势反超了 Opus 4.8 的 1,615 分。早期尝鲜合作伙伴的反馈也印证了这一点:Sonnet 5 在搜索等任务的处理上展现出了远胜以往的 Agent 自主性。与此同时,在安全合规性方面,由于此前 #Anthropic 的顶级模型 Mythos 5 和 Fable 5 因网络安全隐忧而受到美国政府的部署限制,Anthropic 在此次发布中格外注重安全规避。Sonnet 5 未经过网络安全攻击任务的特定训练,其编写软件漏洞等高危能力评估得分远低于 Opus 4.8 和 Mythos 5(在 Firefox 147 漏洞利用评估中,其完全控制率仅为 13.2%),这也帮助其成功规避了监管红线。
Claude Sonnet 5 的发布标志着 AI Agent 生态正加速迈向“高性价比自主化”的新阶段。从技术演进来看,Sonnet 5 并没有一味追求基础参数规模的扩张,而是通过优化工具调用(Tool Use)、终端交互与多步骤长上下文规划,在 #SWE-bench Pro 和 #OSWorld 等强 Agent 基准上实现了对大模型的降维打击。这种“以中端模型成本提供旗舰级 Agent 体验”的策略,将直接利好以 Cursor、Devin 以及各类企业级工作流 Agent 为代表的端到端应用。横向对比来看,尽管 OpenAI 等竞品在推理能力(如 o1 系列)上筑起壁垒,Anthropic 则通过强化 Sonnet 5 的底层操作(Computer Use)和工具协同效率,巩固了其作为 Agent 开发者首选基座模型的地位。长远来看,限制 Agent 大规模落地的核心痛点不仅是能力,更是 Token 消耗与计算成本。未来,如何在保障极高 Agent 规划成功率的前提下,降低推理过程中的 Token “空转”浪费,将是决定 Sonnet 5 能否在生产环境中真正颠覆传统工作流的关键战场。