我们不再信任模型,接着我们也不再信任自己的数据。
我不再盲目追求更好的 AI 模型了。我原以为更强大的模型能修复我的系统,但事实并非如此。问题不在于模型,而在于系统。
随后我意识到了一件更糟糕的事:我也无法信任自己的测量数据。
我看到了三种不同的失败:
- 测试套件在错误的测试环境中运行通过。
- 拦截环节阻断了工作,却给出了错误的统计数据。
- Agent 报告了错误的计数。
每一次失败在仔细观察之前看起来都像是成功。我的验证工具在欺骗我。
我的第一直觉是消除所有的不确定性。我想移除每一个概率性元素,让一切都变得确定。
那是一个错误。
如果你移除了所有的不确定性,你就抹杀了 AI 的价值。AI 的作用是提出想法并探索解决方案,而这些是僵化的规则无法提供的。
解决方案不是禁止不确定性,而是要正确地安置它。
一个系统需要两个不同的角色:
提议角色 (The Proposing Seat) 这个角色负责探索和建议。它需要非确定性。如果模型提出了错误的修复方案,成本是很低的,因为它还没有做出任何决定。
判定角色 (The Judging Seat) 这个角色负责决定测试是否通过或规则是否达成。这个角色必须是确定性的。它必须是可复现且可检查的。
我系统中的失败之所以发生,是因为我把错误的东西放在了判定角色中。我让具有不确定性的过程做出了最终决定。
规则很简单:
- 让不确定的部分去探索。
- 让确定性的部分去判定。
不要试图让整个系统都变得确定。相反,要确保你的判定者是可靠的。一个错误的确定性判定者比一个概率性判定者更危险。错误的判定者会产生一种持续的误差,让你最终不再对其产生怀疑。
每一个为你提供信任感的层级都必须首先经过测量。这种测量应当依赖于你可以观察到的确定性事物。
在你的 AI 系统中,你是如何划定“提议”与“判定”之间的界限的?你在哪些地方坚持使用确定性?
来源:https://dev.to/josephyeo/we-stopped-trusting-models-then-we-stopped-trusting-our-own-numbers-1611
可选学习社区:https://t.me/GyaanSetuAi
