Qwen 2.5 7Bの確信度は当てにならない
大規模言語モデルは、自身の確信度について嘘をつくことがよくあります。
ミネソタ大学による新しい研究は、Qwen 2.5 7Bにおける重大な欠陥を明らかにしています。このモデルが臨床データを使用する場合、その確信度スコアはほとんど変化しません。
モデルは0.856から0.937の間の確信度を報告します。これは、モデルが間違っている場合でも発生します。
研究の主な知見:
- モデルは認識論的にキャリブレーションされていません(epistemically uncalibrated)。その確信度は、正確さではなくプロンプトの形式に依存します。
- 高い確信度は、高い正確性を意味するわけではありません。
- モデルは、簡単なケースにおいて最も自信満々に間違えます。
- 構造化された表形式データにおいては、XGBoostのような従来のモデルがLLMを上回ります。
なぜこのようなことが起こるのでしょうか?
LLMは自然言語から学習します。そのため、臨床数値の行に対する直感が欠けています。実際のデータの証拠ではなく、言語的なパターンに依存してしまうのです。
これはヘルスケア分野においてリスクとなります。モデルの確信度スコアを信じてしまうと、誤った回答を事実として受け入れてしまう可能性があります。
研究者たちは、モデルを再学習させることなく、これを修正する方法を見つけました:
- Few-shotの例とSHAP属性注入(SHAP attribution injection)を組み合わせる。
- これにより、正確性が49%から75.3%に向上しました。
- クロスモデル・キャリブレーターを使用する。
- LLMを古典的なMLモデルと比較することで、LLMが信頼できないときを検知できます。
- この手法により、エラー率が大幅に減少しました。
教訓は単純です。構造化データに対して、言語化された確信度スコアを信用しないでください。ハイブリッドなパイプラインを使用しましょう。数値の処理は古典的なモデルに任せ、LLMは推論と説明に使用してください。
Source: https://arxiv.org/abs/2606.19509
Optional learning community: https://t.me/GyaanSetuAi