快速 LLM 教给我的关于“假设”的启示
我让一个廉价、快速的 LLM 处理一项复杂的任务,运行了一个小时。它没有失败。
大多数人认为弱模型在处理长任务时会失败。它们会偏离主题或中途放弃。但这个模型始终保持在轨道上。这是因为我给了它一份交付物清单。
我原以为这些交付物有助于提高正确性。但我错了。
一项研究表明,交付物并不会让模型变得更正确,而是让模型变得更具可验证性。模型能更好地记录其工作过程,并留下证据供你检查。
软件中存在两种类型的错误:
- 执行错误 (Execution errors):比如逗号写错或遗漏了边缘情况。你可以通过测试和
linting来修复这些错误。 - 假设错误 (Assumption errors):比如将边界设置在错误的位置。这类错误要难修复得多。
流程有助于解决执行错误,但无法解决假设错误。如果你和模型拥有相同的盲点,那么你的审查也会失败。
AI 改变了处理这些错误的逻辑。
过去,人类犯错的速度很慢,这给了你察觉的时间。而现在,AI 犯错的速度很快。在你察觉之前,一个模型可能已经基于一个错误的假设构建了三小时的完美代码。
模型看起来越强大,你就越信任它。你会让它运行更久,减少检查频率。这是一个陷阱。错误的假设不会闪烁警告灯,在为时已晚之前,它看起来都像是进展顺利。
业界试图通过增加流程来解决这个问题。我们增加了更多的规范和计划。但这只是增加了额外的开销。这只是在用解决执行问题的工具来应对假设问题。
我们需要停止衡量模型正确的频率,而应该衡量一个错误的假设在被发现之前能存活多久。
在生产环境中,我们称之为 MTTD:平均检测时间 (Mean Time To Detect)。
我们无法阻止每一个错误。我们只能降低修复错误的成本。而实现这一点的办法就是尽早发现它们。
目标不仅仅是寻找更聪明的模型。目标是决定在哪些环节你仍然需要掌握控制权。
Source: https://dev.to/g_correa/what-a-fast-llm-taught-me-about-assumptions-oe
Optional learning community: https://t.me/GyaanSetuAi
