近日,来自 Z.ai(智谱)的开源旗舰模型 GLM-5.2 正式发布,在社区引发了热烈讨论。有人称其宣告了闭源模型的终结,也有人质疑这只是“刷榜”刷出的泡沫。为了探寻真相,本文综合了 TechStackups 的独立评测专家 James Daniel Whitford 的一手测试、Artificial Analysis 的独立基准测试,以及 Hacker News 上的社区讨论,旨在为开发者提供客观的选型参考。
GLM-5.2 是 Z.ai 最新的开源旗舰模型,采用 MIT 许可协议 开源发布。开发者可以自由下载、本地部署,或通过 API 调用。它拥有高达 100万 Token 的超长上下文窗口,专为长上下文的 AI Agent(如需要数小时持续编码的智能体)而设计。不过,它存在一个关键局限:目前仅支持纯文本,无法像多模态的 Claude Opus 那样解析图片或屏幕截图,这在实际应用中带来了显著差异。
在价格方面,两者的差距极其悬殊。以每百万 Token 的成本计算,价格对比如下:
| 指标 (每百万 Token) | Claude Opus 4.8 | GLM-5.2 |
|---|---|---|
| 输入 (Input) | $5.00 | $1.40 |
| 缓存读取 (Cache read) | $0.50 | $0.26 |
| 输出 (Output) | $25.00 | $4.40 |
这意味着在输出成本上,GLM-5.2 仅为 Opus 的五分之一左右。对于需要长时运行的编码智能体而言,这一资金消耗差距会呈指数级放大。不过,也有 Hacker News 网友指出,若使用每月 100 美元的 #Claude Max 订阅服务,对于重度用户而言,单 Token 成本的差距会明显缩小。
为了全面测试两者的实战能力,评测者设计了一项极具挑战性的硬核测试:使用单次提示词(One-shot),在不借助任何第三方库的前提下,用纯原生 WebGL 从零构建一个第三人称 3D 动作游戏。该任务要求实现角色控制器、碰撞检测、跟随相机、GLB模型加载器、GLSL着色器以及骨骼动画。这远非简单的“生成一个落地页”任务,任何一个子系统的微小错误都会导致整个 3D 引擎彻底崩溃。
以下是两款模型在测试中的各项指标数据对比:
| 指标 | GLM-5.2 | Claude Opus 4.8 |
|---|---|---|
| 构建用时 | 1小时10分40秒 | 33分30秒 |
| 输出 Token 数 | 131,000 | 216,809 |
| 估算成本 | $5.39 | 约 $21.92 |
| 工具调用次数 | 128次 | 153次 |
在最终游戏品质上,Claude Opus 交付了完成度更高的作品。游戏角色贴图正确,尖刺陷阱具备真实的伤害判定和玩家死亡机制,游戏具备完整的通关条件,且相机和操控手感非常流畅。相比之下,GLM-5.2 交付的版本较为粗糙:角色呈现为无贴图的扁平灰色,尖刺陷阱毫无作用,且缺失了通关判定。这表明在处理复杂的、多系统协同的端到端编码任务时,闭源的头部模型在逻辑完备性上依然更胜一筹。
从本次 3D 游戏构建实测可以看出,开源与闭源大模型在 AI Agent 编码赛道的博弈已进入深水区。以 GLM-5.2 为代表的开源模型,凭借其强大的参数规模、MIT 协议的绝对开放性,以及极具破坏力的极致性价比(约为 Opus 的 1/5),正大幅降低企业构建私有化智能体集群的门槛。然而,在面对高吞吐、多系统深层耦合的“长程任务(Long-horizon tasks)”时,闭源的 Claude Opus 在推理深度、代码鲁棒性以及工具调用(Tool Calling)的连贯性上,依然维持着显著的断代优势。对于 AI #Agent 生态而言,未来一年我们将看到明显的分流:轻量级、高频次的原子化 Agent 任务将快速向低成本的开源模型迁移,并促进边缘侧 Agent 的爆发;而涉及高逻辑复杂度、需要视觉/文本多模态感知(如解析 UI 截图)的重工业级 Agent 流程,闭源旗舰模型依然是不可替代的基石。开源模型要真正颠覆闭源生态,除继续压低成本外,必须跨越长上下文推理中的“大海捞针”和逻辑自洽性这两座大山。