Qwen 2.5 7B 的置信度不可靠

大语言模型经常在“确定程度”上撒谎。

明尼苏达大学的一项新研究显示,Qwen 2.5 7B 存在一个重大缺陷。当该模型处理临床数据时,其置信度分数几乎保持不变。

该模型报告的置信度在 0.856 到 0.937 之间。即使在模型出错时也是如此。

研究的主要发现:

  • 模型在认识论上是未校准的(epistemically uncalibrated)。其确定性取决于提示词(prompt)的格式,而非准确性。
  • 高置信度并不意味着高准确度。
  • 模型在简单案例上最容易表现出“自信地犯错”。
  • 在结构化表格数据上,像 XGBoost 这样的传统模型表现优于 LLM。

为什么会发生这种情况?

LLM 从自然语言中学习。它们缺乏对临床数值行的直觉。它们依赖于语言模式,而非实际的数据证据。

这在医疗保健领域带来了风险。如果你信任模型的置信度分数,你可能会将错误答案视为事实。

研究人员发现了一种无需重新训练模型即可修复此问题的方法:

  • 将 few-shot 示例与 SHAP 归因注入(attribution injection)相结合。
  • 这将准确率从 49% 提高到了 75.3%。
  • 使用跨模型校准器(cross-model calibrator)。
  • 通过将 LLM 与经典的 ML 模型进行比较,你可以检测出 LLM 何时是不可靠的。
  • 这种方法显著降低了错误率。

结论很简单:不要信任结构化数据的语言化置信度分数。请使用混合流水线(hybrid pipelines)。让经典模型处理数字,而将 LLM 用于推理和解释。

来源:https://arxiv.org/abs/2606.19509

可选学习社区:https://t.me/GyaanSetuAi