一个快速 LLM 教给我的关于“假设”的启示

Translated for your language. 阅读原文.

AI-assisted draft.

GyaanSetu Editorial2周前2分钟阅读

快速 LLM 教给我的关于“假设”的启示

我让一个廉价、快速的 LLM 处理一项复杂的任务，运行了一个小时。它没有失败。

大多数人认为弱模型在处理长任务时会失败。它们会偏离主题或中途放弃。但这个模型始终保持在轨道上。这是因为我给了它一份交付物清单。

我原以为这些交付物有助于提高正确性。但我错了。

一项研究表明，交付物并不会让模型变得更正确，而是让模型变得更具可验证性。模型能更好地记录其工作过程，并留下证据供你检查。

软件中存在两种类型的错误：

流程有助于解决执行错误，但无法解决假设错误。如果你和模型拥有相同的盲点，那么你的审查也会失败。

AI 改变了处理这些错误的逻辑。

过去，人类犯错的速度很慢，这给了你察觉的时间。而现在，AI 犯错的速度很快。在你察觉之前，一个模型可能已经基于一个错误的假设构建了三小时的完美代码。

模型看起来越强大，你就越信任它。你会让它运行更久，减少检查频率。这是一个陷阱。错误的假设不会闪烁警告灯，在为时已晚之前，它看起来都像是进展顺利。

业界试图通过增加流程来解决这个问题。我们增加了更多的规范和计划。但这只是增加了额外的开销。这只是在用解决执行问题的工具来应对假设问题。

我们需要停止衡量模型正确的频率，而应该衡量一个错误的假设在被发现之前能存活多久。

在生产环境中，我们称之为 MTTD：平均检测时间 (Mean Time To Detect)。

我们无法阻止每一个错误。我们只能降低修复错误的成本。而实现这一点的办法就是尽早发现它们。

目标不仅仅是寻找更聪明的模型。目标是决定在哪些环节你仍然需要掌握控制权。

Optional learning community: https://t.me/GyaanSetuAi