Qwen 2.5 7Bの確信度は当てにならない

大規模言語モデルは、自身の確信度について嘘をつくことがよくあります。

ミネソタ大学による新しい研究は、Qwen 2.5 7Bにおける重大な欠陥を明らかにしています。このモデルが臨床データを使用する場合、その確信度スコアはほとんど変化しません。

モデルは0.856から0.937の間の確信度を報告します。これは、モデルが間違っている場合でも発生します。

研究の主な知見:

  • モデルは認識論的にキャリブレーションされていません(epistemically uncalibrated)。その確信度は、正確さではなくプロンプトの形式に依存します。
  • 高い確信度は、高い正確性を意味するわけではありません。
  • モデルは、簡単なケースにおいて最も自信満々に間違えます。
  • 構造化された表形式データにおいては、XGBoostのような従来のモデルがLLMを上回ります。

なぜこのようなことが起こるのでしょうか?

LLMは自然言語から学習します。そのため、臨床数値の行に対する直感が欠けています。実際のデータの証拠ではなく、言語的なパターンに依存してしまうのです。

これはヘルスケア分野においてリスクとなります。モデルの確信度スコアを信じてしまうと、誤った回答を事実として受け入れてしまう可能性があります。

研究者たちは、モデルを再学習させることなく、これを修正する方法を見つけました:

  • Few-shotの例とSHAP属性注入(SHAP attribution injection)を組み合わせる。
  • これにより、正確性が49%から75.3%に向上しました。
  • クロスモデル・キャリブレーターを使用する。
  • LLMを古典的なMLモデルと比較することで、LLMが信頼できないときを検知できます。
  • この手法により、エラー率が大幅に減少しました。

教訓は単純です。構造化データに対して、言語化された確信度スコアを信用しないでください。ハイブリッドなパイプラインを使用しましょう。数値の処理は古典的なモデルに任せ、LLMは推論と説明に使用してください。

Source: https://arxiv.org/abs/2606.19509

Optional learning community: https://t.me/GyaanSetuAi