我的偏见检测器在“无信息”中发现了“采樱桃”行为
我开发了一个名为 Biassemble 的项目。
目标很简单。你给它一个故事,它会提出问题,并标记出你在推理过程中存在的认知偏见。
我用一个关于名叫 Anna 的女性的故事进行了测试。她的故事只包含事实:她喝了咖啡,赶上了公交车,然后步行去办公室。文本中没有任何观点或情感。
我的第一个提示词(prompt)只有一个规则:从列表中检测出至少一种偏见。
这个规则迫使系统必须找到点什么。即使并不存在偏见,系统也会试图凭空捏造一种。
我将提示词更新到了 1.0.0 版本。我增加了一个对证据的要求:系统必须引用故事中的具体部分来证明偏见的存在。
我以为这解决了问题。但事实并非如此。
当我对后续问题回答“无信息”(no info)时,系统标记我存在“采樱桃”(Cherry-Picking)行为。它辩称,我拒绝进行推测是一种故意忽略数据的选择。
从技术层面讲,系统是正确的。我确实说了四次“无信息”,它也准确引用了我的原话。但结论是错误的。它将信息的缺失转化为了推理错误。
事实依据(Grounding)使引用变得真实,但并没有让结论变得正确。
我发布了 1.1.0 版本,增加了三项新检查:
- 开始时的充分性检查。
- 证据排除规则。
- 置信度阈值。
结果发生了变化。面对同样的“无信息”回答,1.1.0 版本报告没有偏见。它识别出我的回答是描述性的,而非解释性的。
这两个版本的区别不在于证据,而在于系统如何对待“我不知道”。
一个版本将“我不知道”视为偏见的迹象;另一个版本则将其视为有效的回答。你必须告诉模型如何处理这种情况,它不会自行决定。
我现在正在构建指标来测试这一点。我需要知道系统是真的改进了,还是仅仅学会了忽略这个特定的故事。
我原以为我在构建一个偏见检测器,结果却学到了为什么推理系统在面对“我不知道”时会陷入困境。
Source: https://dev.to/lemind/my-bias-detector-found-cherry-picking-in-the-answer-no-info-9hf
Optional learning community: https://t.me/GyaanSetuAi