我如何独自运行多个应用:Agent Harness

我独自构建并维护着几个小型应用。我没有联合创始人,没有员工,也没有承包商。我只用一个人,以及一群 AI 智能体 (AI agents)。

人们认为 AI 帮我写代码更快。那并不是秘密所在。

秘密在于,我绝不会让 AI 在没有证明的情况下宣布任务完成。当你独自工作时,危险不在于工作缓慢,而在于“自信地犯错”。

AI 会告诉你测试通过,即使它从未运行过测试。它会在只写了一个函数名时就说功能已完成。如果没有同事来纠错,一个错误的“看起来不错”就可能毁掉你的应用。

我构建了一个名为 Agent Harness 的系统。它让“虚假完成”变得代价高昂。它利用专门的智能体和验证关卡 (verification gates) 来确保 AI 说的是实话。

以下是它的工作原理:

专门的智能体:我不是使用一个助手,而是使用 40 个专门的智能体。一个负责审查 Flutter 代码;一个检查安全性;一个执行测试;一个通过将声明与实际更改进行对比来审计现实情况。 • 隔离工作:智能体在独立的临时环境中工作。它们无法互相覆盖。 • 冗余机制:我对一项更改使用多个审查者。一个审查者可能会漏掉一个 bug,但三个目标不同且带有一个怀疑论者的审查者会发现它。 • 固定流水线:每个任务都遵循严格的路径: - 规划任务。 - 实现更改。 - 真实运行代码。我不接受“我觉得它能行”。我只接受实际的输出。 - 现实审计。一个独立的智能体检查代码是否与声明相符。 - 审查。语言专家检查工作成果。 - 验证关卡。最后的检查以确认真实的更改和是否存在安全漏洞。它返回 PASS(通过)或 REJECT(拒绝)。

这个系统阻止了我过去常对自己说的谎言。

“应该可以运行”会在执行阶段失败。 如果代码只是一个空壳,“已完成”会在现实审计阶段失败。 如果隐藏了一个警告,“全绿”也会失败。

我还使用了一个三层记忆系统。它使用短索引、长期笔记和全文搜索。这可以防止 AI 猜测我过去是如何设置各项内容的。

最重要的规则是:我将工作自动化,但我绝不将判断自动化。

• 发布是手动的。我亲自按下按钮。 • 上线需要我参与。我批准每一笔付款或发布设置。 • 任何失败都不会合并。构建失败会阻塞一切。

AI 的杠杆作用来自于任务自动化,而安全性来自于拒绝决策自动化。

当你独自工作时,你最宝贵的资源是信任。你必须相信你发布的东西正是你打算发布的东西。

从小处着手。找到你最常犯的错误。构建一个能让该错误变得不可能发生的检查机制。

Source: https://dev.to/pi-maker/how-i-run-a-handful-of-apps-solo-the-agent-harness-explained-512i

Optional learning community: https://t.me/GyaanSetuAi