这一切都始于 6 月 23 日关于 VPS 管理器基准测试的一篇日常帖子。出于好奇,我决定向基准测试的作者询问,他是否尝试过 Cloudflare Workers AI 新推出的服务——特别是 Kimi K2.7。这是一门拥有 1万亿参数的混合专家(MoE)模型,其输入 Token 价格极具竞争力(每百万个 Token 仅需 0.27 美元),且在代码生成方面表现出极高的水准。
作者指出一个极其精妙的假说:如果模型在生成代码时犯的错误显著减少,即使单次 Token 价格略高,整个会话的总成本也会大幅下降。他以 GLM 5.2 为例,该模型在验证过程中自行修复了多个 Bug,最终成功通过了 37/37 项测试。出于好奇,我立即搭建了开发环境,编写了一个自定义的 Agent 运行框架,并在 Cloudflare Workers AI 上基于 #Kimi K2.7 跑了起来。
我们当时正在构建一个完全运行在 CPU L3 缓存内部、具备自我修复能力的裸金属操作系统——V.E.L.O.C.I.T.Y.-OS。这个项目涵盖了庞大的技术路线图:从编译器关卡设计、无 Web 栈 Native IDE 开发,到 x86-64 汇编器构建、Ring 0 权限接管,甚至是无缝热补丁以及最终将控制权完全移交给本地 LLM 终端进行自我优化。对于任何大语言模型来说,这都是一项极具挑战的任务。
在初步运行中,Kimi K2.7 的表现令人惊艳:在每日免费额度内,它成功完成了 30 个基础文件中的 19 个,展现出了所有测试模型中最干净的架构布局。然而,当我们深入审查这 19 个文件时,却抓到了一个重大的安全漏洞:Kimi 将数据库连接凭证直接暴露在了代码中。
这并不是推理能力上的失败,而是一个典型的一致性与作用域失败。Kimi 陷入了所谓的“安全暗室”安全幻觉(Safe-Room Security)。在这种状态下,大模型默认其生成的代码将运行在一个绝对受控且隔离的安全环境中,因而忽略了生产环境下的安全最佳实践(如通过环境变量读取凭证,而不是硬编码)。
本案例揭示了当前代码生成与自主 Agent 落地过程中的一个致命痛点:『安全暗室幻觉(Safe-Room Illusion)』。当 AI Agent 在沙箱或隔离的开发环境中运行时,它往往默认当前环境是绝对安全的,从而习惯性地硬编码敏感凭证(如数据库密码、API Key)。然而,一旦这些代码被推送到生产环境或开源仓库,便会引发严重的灾难。横向对比来看,无论是 Devin、Cursor 还是基于底层大模型的自定义 Agent 框架,如何在推理决策链中建立起『零信任(Zero-Trust)』安全意识,是智能体走向实用化的关键一步。未来的 AI Agent 生态不仅需要强大的代码编写与自我纠错能力,更需要内置动态环境感知与安全沙箱隔离机制。只有当 Agent 具备在不安全的世界中编写安全代码的本能时,我们才能真正实现自主软件开发(Autonomous Software Engineering)的工程落地。