Qwen 2.5 7B 的置信度不可靠
大语言模型经常在“确定程度”上撒谎。
明尼苏达大学的一项新研究显示,Qwen 2.5 7B 存在一个重大缺陷。当该模型处理临床数据时,其置信度分数几乎保持不变。
该模型报告的置信度在 0.856 到 0.937 之间。即使在模型出错时也是如此。
研究的主要发现:
- 模型在认识论上是未校准的(epistemically uncalibrated)。其确定性取决于提示词(prompt)的格式,而非准确性。
- 高置信度并不意味着高准确度。
- 模型在简单案例上最容易表现出“自信地犯错”。
- 在结构化表格数据上,像 XGBoost 这样的传统模型表现优于 LLM。
为什么会发生这种情况?
LLM 从自然语言中学习。它们缺乏对临床数值行的直觉。它们依赖于语言模式,而非实际的数据证据。
这在医疗保健领域带来了风险。如果你信任模型的置信度分数,你可能会将错误答案视为事实。
研究人员发现了一种无需重新训练模型即可修复此问题的方法:
- 将 few-shot 示例与 SHAP 归因注入(attribution injection)相结合。
- 这将准确率从 49% 提高到了 75.3%。
- 使用跨模型校准器(cross-model calibrator)。
- 通过将 LLM 与经典的 ML 模型进行比较,你可以检测出 LLM 何时是不可靠的。
- 这种方法显著降低了错误率。
结论很简单:不要信任结构化数据的语言化置信度分数。请使用混合流水线(hybrid pipelines)。让经典模型处理数字,而将 LLM 用于推理和解释。
来源:https://arxiv.org/abs/2606.19509
可选学习社区:https://t.me/GyaanSetuAi