AI写代码实现“自我验证”，开源项目OpenSquilla发布0.4.0

开源 AI Agent 项目 OpenSquilla 近日发布了 0.4.0 版本，其核心亮点在于推出了全新的编码工作流 coding 模式，并首次在行业内引入了“自我验证”机制。这意味着 AI 不再仅仅停留在“代码写完了”的口头交付阶段，而是在最终交付前，利用自动化测试为自己跑出一份可复核的、证明“改对了”的测试报告，直击 AI 编码最棘手的信任瓶颈。

这一自我验证的核心是一条闭环的“红绿回归证据链”。首先，Agent 会编写一个注定失败的测试来给 bug 定性；接着修改功能代码，让测试由“红”转“绿”；最后运行项目原有的所有测试，确保没有引入新的回归问题。只有三关全过才予以交付，任一失败则启动默认的自动修复闭环，且整个过程在隔离副本中进行，极大地保障了生产环境的安全。

在官方演示中，#OpenSquilla 在知名极简自动微分库 micrograd（由 AI 领域知名学者 Andrej Karpathy 开发）上进行了实测，成功修复了极难通过肉眼发现的梯度计算错误，其计算精度与行业标准 PyTorch 在小数点后 10 位完全一致。这也是该团队继发布新一代基准测试 claw-swe-bench 之后，在 Agent runtime（运行时）领域的最新落地实践。同时，新版本还推出了支持 macOS 与 Windows 的桌面安装包，极大地降低了门槛。

此外，OpenSquilla 主打“提升单位成本的 Agent 智能”，基于 Learnable Harness 理念，通过本地智能路由、按需加载技能和工具预处理等技术压降 token 成本。数据显示，其智能路由相比通用网关 OpenRouter 精度高出约 4.4%，成本却降低了约 75%，在常规场景下，内测综合成本可下降达 60%–80%。

据悉，基元律动创始人王云鹤曾负责头部科技公司的大模型研发，CTO 为韩凯。OpenSquilla 在上线数周内 GitHub star 即攀升至数千量级，并在成立数月内完成了首轮融资，成为 Harness 和 Agent 原生模型赛道上不容忽视的黑马。

AgentUpdate 深度解析

从 Devin 掀起 AI 程序员热潮，到 Cursor 成为开发者标配，AI 编码已从“辅助生成”迈向“自主构建”。然而，幻觉和不可控性始终是其进入生产环境的死穴。OpenSquilla 0.4.0 引入的“自我验证”机制，其本质是将传统软件工程的 TDD（测试驱动开发）思想与 AI 规划能力深度融合。相比于单纯依赖 LLM 判别能力的同类技术，其“红绿回归证据链”提供了一种客观、可量化的信任标准。这种将验证闭环内化于 Agent 运行时的设计，不仅能极大提升 #SWE-bench 等基准测试的通关率，更为未来 AI Agent 实现无人值守的流水线级软件生产（AI-native #DevOps）奠定了坚实的方法论基础。

AI写代码实现“自我验证”，开源项目OpenSquilla发布0.4.0

推荐阅读

Loop世界模型登顶Hugging Face！中国初创团队获陆奇周鸿祎投资

硅基流动递表港交所，冲刺“AI Token第一股”

联汇发布全球首个端侧流式多模态模型VLX，重塑具身智能

相关工具与资源推荐

相关技能市场

Antigravity Awesome Skills