𝗠𝘆 𝗕𝗶𝗮𝘀 𝗗𝗲𝘁𝗲𝗰𝘁𝗼𝗿 𝗙𝗼𝘂𝗻𝗱 𝗖𝗵𝗲𝗿𝗿𝘆 𝗣𝗶𝗰𝗸𝗶𝗻𝗴 𝗶𝗻 "𝗡𝗼 𝗜𝗻𝗳𝗼"

Machine-translated. Read the original.

📅3 hours ago⏱2 min read

我的偏见检测器在“无信息”中发现了“采樱桃”行为

我开发了一个名为 Biassemble 的项目。

目标很简单。你给它一个故事，它会提出问题，并标记出你在推理过程中存在的认知偏见。

我用一个关于名叫 Anna 的女性的故事进行了测试。她的故事只包含事实：她喝了咖啡，赶上了公交车，然后步行去办公室。文本中没有任何观点或情感。

我的第一个提示词（prompt）只有一个规则：从列表中检测出至少一种偏见。

这个规则迫使系统必须找到点什么。即使并不存在偏见，系统也会试图凭空捏造一种。

我将提示词更新到了 1.0.0 版本。我增加了一个对证据的要求：系统必须引用故事中的具体部分来证明偏见的存在。

我以为这解决了问题。但事实并非如此。

当我对后续问题回答“无信息”（no info）时，系统标记我存在“采樱桃”（Cherry-Picking）行为。它辩称，我拒绝进行推测是一种故意忽略数据的选择。

从技术层面讲，系统是正确的。我确实说了四次“无信息”，它也准确引用了我的原话。但结论是错误的。它将信息的缺失转化为了推理错误。

事实依据（Grounding）使引用变得真实，但并没有让结论变得正确。

我发布了 1.1.0 版本，增加了三项新检查：

结果发生了变化。面对同样的“无信息”回答，1.1.0 版本报告没有偏见。它识别出我的回答是描述性的，而非解释性的。

这两个版本的区别不在于证据，而在于系统如何对待“我不知道”。

一个版本将“我不知道”视为偏见的迹象；另一个版本则将其视为有效的回答。你必须告诉模型如何处理这种情况，它不会自行决定。

我现在正在构建指标来测试这一点。我需要知道系统是真的改进了，还是仅仅学会了忽略这个特定的故事。

我原以为我在构建一个偏见检测器，结果却学到了为什么推理系统在面对“我不知道”时会陷入困境。

Optional learning community: https://t.me/GyaanSetuAi

Continue reading