Qwen 2.5 7Bの確信度は信頼できない

Translated for your language. 原文を読む.

AI-assisted draft.

14 時間前1分で読めます

Qwen 2.5 7Bの確信度は当てにならない

大規模言語モデルは、自身の確信度について嘘をつくことがよくあります。

ミネソタ大学による新しい研究は、Qwen 2.5 7Bにおける重大な欠陥を明らかにしています。このモデルが臨床データを使用する場合、その確信度スコアはほとんど変化しません。

モデルは0.856から0.937の間の確信度を報告します。これは、モデルが間違っている場合でも発生します。

研究の主な知見：

モデルは認識論的にキャリブレーションされていません（epistemically uncalibrated）。その確信度は、正確さではなくプロンプトの形式に依存します。
高い確信度は、高い正確性を意味するわけではありません。
モデルは、簡単なケースにおいて最も自信満々に間違えます。
構造化された表形式データにおいては、XGBoostのような従来のモデルがLLMを上回ります。

なぜこのようなことが起こるのでしょうか？

LLMは自然言語から学習します。そのため、臨床数値の行に対する直感が欠けています。実際のデータの証拠ではなく、言語的なパターンに依存してしまうのです。

これはヘルスケア分野においてリスクとなります。モデルの確信度スコアを信じてしまうと、誤った回答を事実として受け入れてしまう可能性があります。

研究者たちは、モデルを再学習させることなく、これを修正する方法を見つけました：

教訓は単純です。構造化データに対して、言語化された確信度スコアを信用しないでください。ハイブリッドなパイプラインを使用しましょう。数値の処理は古典的なモデルに任せ、LLMは推論と説明に使用してください。

Optional learning community: https://t.me/GyaanSetuAi

続きを読む