你的 AI Agent 没有坏,坏的是你公司的“真相”。
一个 AI Agent 只有一项任务:支付一张已批准的供应商发票。财务团队希望停止手动处理这项工作。
在一个周二,该 Agent 处理了一张金额为 48,000 Ksh 的发票。ERP 系统将其标记为“已批准”且“未支付”。Agent 检查了规则,一切符合要求。于是,它支付了这笔发票。
问题在于?这张发票在上周四已经被人工支付过了。
没有哪个系统是错的,但它们之间存在分歧:
• ERP 说它未支付,因为银行同步失败了。 • 银行流水显示已支付。 • 一个 Slack 讨论串里提到要暂停向该供应商支付所有款项。 • 供应商的一封邮件确认他们已收到款项。
每个系统都掌握着拼图的一块。但没有任何一个系统能回答那个唯一关键的问题:这张特定的发票到底付过钱了吗?
人类办事员会发现这个问题。不是因为他们更聪明,而是因为他们能感受到“摩擦”。人类会记得这项任务,或者注意到 Slack 上的消息。人类充当了混乱系统之间的粘合剂。我们提供判断力。
AI Agent 没有直觉。它们以机器的速度读取数据。它们看到“已批准”和“未支付”,然后就执行了。它们感觉不到哪里不对劲。
这个 Agent 并没有失败。它的运行完全符合设计。这种失败,我称之为认识论崩溃(epistemic collapse)。
大多数公司试图通过更好的提示词(prompts)或更好的模型来修复 Agent。这是一个错误的举动。你无法通过提示词,从不存在于数据中的信息里“变”出答案。
真正的问题在于缺乏认识论基础设施(epistemic infrastructure)。
数据是你的系统所存储的内容。真相是实际发生的情况。大多数公司拥有海量的数据,却几乎没有任何真相。
当前的系统将三种不同的东西压缩到了同一个字段中:
- 观察(Observation):系统声称发生的事情。
- 真相(Truth):实际真实的情况。
- 历史(History):曾经真实的情况。
当数据库显示“状态:未支付”时,它抹去了历史和疑虑。它将单一的观察结果呈现为绝对的真相。
AI Agent 是对这个老问题的压力测试。它们移除了那些每天在默默修复这些矛盾的人类。如果没有人类来弥合这些缝隙,数据中的裂痕就会演变成代价高昂的错误。
停止试图构建更好的 Agent。开始构建它们之下的那一层。你需要一个能够追踪观察结果、识别分歧并识别陈旧数据的系统。
在你构建起事实层之前,你的智能体将继续完美地执行错误的操作。
来源: https://dev.to/code_with_mwai/your-ai-agent-isnt-broken-your-companys-truth-is-2cl8
可选学习社区: https://t.me/GyaanSetuAi