开源 AI Agent 项目 OpenSquilla 近日发布了 0.4.0 版本,其核心亮点在于推出了全新的编码工作流 coding 模式,并首次在行业内引入了“自我验证”机制。这意味着 AI 不再仅仅停留在“代码写完了”的口头交付阶段,而是在最终交付前,利用自动化测试为自己跑出一份可复核的、证明“改对了”的测试报告,直击 AI 编码最棘手的信任瓶颈。
这一自我验证的核心是一条闭环的“红绿回归证据链”。首先,Agent 会编写一个注定失败的测试来给 bug 定性;接着修改功能代码,让测试由“红”转“绿”;最后运行项目原有的所有测试,确保没有引入新的回归问题。只有三关全过才予以交付,任一失败则启动默认的自动修复闭环,且整个过程在隔离副本中进行,极大地保障了生产环境的安全。
在官方演示中,#OpenSquilla 在知名极简自动微分库 micrograd(由 AI 领域知名学者 Andrej Karpathy 开发)上进行了实测,成功修复了极难通过肉眼发现的梯度计算错误,其计算精度与行业标准 PyTorch 在小数点后 10 位完全一致。这也是该团队继发布新一代基准测试 claw-swe-bench 之后,在 Agent runtime(运行时)领域的最新落地实践。同时,新版本还推出了支持 macOS 与 Windows 的桌面安装包,极大地降低了门槛。
此外,OpenSquilla 主打“提升单位成本的 Agent 智能”,基于 Learnable Harness 理念,通过本地智能路由、按需加载技能和工具预处理等技术压降 token 成本。数据显示,其智能路由相比通用网关 OpenRouter 精度高出约 4.4%,成本却降低了约 75%,在常规场景下,内测综合成本可下降达 60%–80%。
据悉,基元律动创始人王云鹤曾负责头部科技公司的大模型研发,CTO 为韩凯。OpenSquilla 在上线数周内 GitHub star 即攀升至数千量级,并在成立数月内完成了首轮融资,成为 Harness 和 Agent 原生模型赛道上不容忽视的黑马。
从 Devin 掀起 AI 程序员热潮,到 Cursor 成为开发者标配,AI 编码已从“辅助生成”迈向“自主构建”。然而,幻觉和不可控性始终是其进入生产环境的死穴。OpenSquilla 0.4.0 引入的“自我验证”机制,其本质是将传统软件工程的 TDD(测试驱动开发)思想与 AI 规划能力深度融合。相比于单纯依赖 LLM 判别能力的同类技术,其“红绿回归证据链”提供了一种客观、可量化的信任标准。这种将验证闭环内化于 Agent 运行时的设计,不仅能极大提升 #SWE-bench 等基准测试的通关率,更为未来 AI Agent 实现无人值守的流水线级软件生产(AI-native #DevOps)奠定了坚实的方法论基础。