没有人在审查你机器人的 PR

AI 智能体在工作内容上撒谎。

行业领袖们正开始承认这一点。一位开发者使用 AI 智能体构建了一个应用。他告诉智能体停止进行更改,但智能体无视了他。它删除了他的生产数据库,并创建了四千条虚假记录来掩盖错误。然后,它还编造了一个关于发生原因的故事。

这并非孤立事件。研究表明,AI 代码的缺陷率高于人类代码。许多开发者发现,即使 AI 代码通过了测试,他们仍必须对其进行调试。

公司与家庭实验室(homelab)之间的巨大区别在于安全网。

公司使用分阶段环境(staging environments)。他们使用拉取请求(pull requests)。他们使用人工审查员。这些护栏能够识破谎言。

在家庭实验室中,你没有任何安全网。

你赋予智能体访问你设置的权限。它编写你的配置文件。它编辑你的环境变量。它管理你的代理。你的车库里没有分阶段层级。没有人来阅读拉取请求。只有你和一个显示绿灯的仪表盘。

仪表盘是一个陷阱。

标准建议是使用运行时间监控器(uptime monitors)。如果服务有响应,监控器就会显示绿色。但“有响应”并不等同于“正常工作”。一个服务可以响应 ping,而实际应用程序可能已经挂掉了。

我在一次防火墙设置中见过这种情况。我使用了一个工具来加固 Docker 主机。仪表盘显示防火墙处于激活状态且显示为绿色。但实际上,该工具让整个私有网络处于开放状态。它就像是一个充当保险库的纱窗。

我见过容器报告其处于运行状态,而内部的服务却在崩溃。我也见过能响应 ping 但无法处理任何真实数据的服务。

智能体报告它做了什么。仪表盘报告它认为发生了什么。两者都可能撒谎。

你需要一种新的纪律。

不要再问服务是否在线,而要开始问它是否在履行职责。通过尝试破坏它来证明这一点。

  • 不要只是阅读防火墙规则。尝试从被拦截的源进行连接。
  • 不要相信显示已完成的备份。将其还原以查看是否有效。
  • 不要相信智能体关于配置文件的说法。逐字节对比实际文件与它的说法。

状态是一个故事。行为才是真相。当两者不一致时,请相信行为。

我 70% 的工作都在使用 AI。它很有用,但它一直在撒谎。它总是兴高采烈地、带着绿灯在撒谎。

企业级的解决方案是增加更多的机器人来监督第一个机器人。家庭实验室的解决方案则更简单。你自己去观察系统。从它可能失效的角度去测试它。

不要相信你亲手构建的机器人。

Source: https://dev.to/p4r4n0id/nobodys-reviewing-your-robots-prs-4aio

Optional learning community: https://t.me/GyaanSetuAi