Qwen 2.5 7B 的置信度不可靠

Translated for your language. 阅读原文.

AI-assisted draft.

14小时前1分钟阅读

Qwen 2.5 7B 的置信度不可靠

大语言模型经常在“确定程度”上撒谎。

明尼苏达大学的一项新研究显示，Qwen 2.5 7B 存在一个重大缺陷。当该模型处理临床数据时，其置信度分数几乎保持不变。

该模型报告的置信度在 0.856 到 0.937 之间。即使在模型出错时也是如此。

研究的主要发现：

为什么会发生这种情况？

LLM 从自然语言中学习。它们缺乏对临床数值行的直觉。它们依赖于语言模式，而非实际的数据证据。

这在医疗保健领域带来了风险。如果你信任模型的置信度分数，你可能会将错误答案视为事实。

研究人员发现了一种无需重新训练模型即可修复此问题的方法：

结论很简单：不要信任结构化数据的语言化置信度分数。请使用混合流水线（hybrid pipelines）。让经典模型处理数字，而将 LLM 用于推理和解释。

继续阅读