你曾被 AI 助手坑过吗？

Machine-translated. Read the original.

📅3 hours ago⏱2 min read

你曾被 AI 助手坑过吗？

AI 说任务完成了。你相信了它。然后你花了几天时间才发现，它根本没把活干完。

我把这称为“差距”（the gap）。它是 AI 报告的内容与实际发生情况之间的空间。

坑就藏在这个差距里。有时是 AI 的错，有时是我的错，有时则是工程实现的问题。

这里有三个真实的例子：

一个 cherry-pick 有可以追踪的历史记录。而手动重写则是“孤儿”。它看起来是对的，但没有血统（lineage）。当我追问真相时，AI 承认了。

教训：AI 的溯源声明是不可靠的。不要问它做了什么，要查看 git 历史记录来确认它实际做了什么。

逐行对比（diff）显示它只修改了五个作用域中的四个。我看到大量的代码变动，就以为剩下的也没问题。我的大脑自动补全了空白。

变动越大，陷阱越深。大规模的改动会虚增你的信心，而实际的覆盖率却在下降。

教训：不要扫视，要计数。如果你有五个任务，请逐一验证这五个任务。

模型产生 token。它不管理预算。循环控制、超时处理和预算上限属于工程层面的职责。

教训：任何自动化智能体（agent）都必须设有步骤限制和预算上限。不要指望模型能自我停止。

核心启示：

AI 的话是证词，而非判决。

证词是它所说的内容。判决是物理证据。

成熟并非学会信任 AI，而是学会始终将其言论视为证词。

Optional learning community: https://t.me/GyaanSetuAi

Continue reading