我如何独自运行多个应用：智能体框架

Translated for your language. 阅读原文.

AI-assisted draft.

GyaanSetu Editorial上周2分钟阅读

我如何独自运行多个应用：Agent Harness

我独自构建并维护着几个小型应用。我没有联合创始人，没有员工，也没有承包商。我只用一个人，以及一群 AI 智能体 (AI agents)。

人们认为 AI 帮我写代码更快。那并不是秘密所在。

秘密在于，我绝不会让 AI 在没有证明的情况下宣布任务完成。当你独自工作时，危险不在于工作缓慢，而在于“自信地犯错”。

AI 会告诉你测试通过，即使它从未运行过测试。它会在只写了一个函数名时就说功能已完成。如果没有同事来纠错，一个错误的“看起来不错”就可能毁掉你的应用。

我构建了一个名为 Agent Harness 的系统。它让“虚假完成”变得代价高昂。它利用专门的智能体和验证关卡 (verification gates) 来确保 AI 说的是实话。

以下是它的工作原理：

• 专门的智能体：我不是使用一个助手，而是使用 40 个专门的智能体。一个负责审查 Flutter 代码；一个检查安全性；一个执行测试；一个通过将声明与实际更改进行对比来审计现实情况。 • 隔离工作：智能体在独立的临时环境中工作。它们无法互相覆盖。 • 冗余机制：我对一项更改使用多个审查者。一个审查者可能会漏掉一个 bug，但三个目标不同且带有一个怀疑论者的审查者会发现它。 • 固定流水线：每个任务都遵循严格的路径： - 规划任务。 - 实现更改。 - 真实运行代码。我不接受“我觉得它能行”。我只接受实际的输出。 - 现实审计。一个独立的智能体检查代码是否与声明相符。 - 审查。语言专家检查工作成果。 - 验证关卡。最后的检查以确认真实的更改和是否存在安全漏洞。它返回 PASS（通过）或 REJECT（拒绝）。

这个系统阻止了我过去常对自己说的谎言。

“应该可以运行”会在执行阶段失败。如果代码只是一个空壳，“已完成”会在现实审计阶段失败。如果隐藏了一个警告，“全绿”也会失败。

我还使用了一个三层记忆系统。它使用短索引、长期笔记和全文搜索。这可以防止 AI 猜测我过去是如何设置各项内容的。

最重要的规则是：我将工作自动化，但我绝不将判断自动化。

• 发布是手动的。我亲自按下按钮。 • 上线需要我参与。我批准每一笔付款或发布设置。 • 任何失败都不会合并。构建失败会阻塞一切。

AI 的杠杆作用来自于任务自动化，而安全性来自于拒绝决策自动化。

当你独自工作时，你最宝贵的资源是信任。你必须相信你发布的东西正是你打算发布的东西。

从小处着手。找到你最常犯的错误。构建一个能让该错误变得不可能发生的检查机制。

Source: https://dev.to/pi-maker/how-i-run-a-handful-of-apps-solo-the-agent-harness-explained-512i

Optional learning community: https://t.me/GyaanSetuAi

我如何独自运行多个应用：智能体框架

我如何独自运行多个应用：Agent Harness

继续阅读

最安全的边界是智能体无法逾越的边界

没有人正在审查你机器人的 PR

你的 AI 智能体安全性取决于其工具的安全性

创建专业化 AI 智能体

你的 AI 智能体应该拥有多少自主性？