𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲

Translated for your language. Lire l'original.

AI-assisted draft.

il y a 14 heures1min de lecture

La confiance de Qwen 2.5 7B est peu fiable

Les grands modèles de langage mentent souvent sur leur degré de certitude.

Une nouvelle étude de l'Université du Minnesota révèle une faille majeure dans Qwen 2.5 7B. Lorsque ce modèle travaille avec des données cliniques, ses scores de confiance restent presque identiques.

Le modèle affiche un niveau de confiance compris entre 0,856 et 0,937. Cela se produit même lorsque le modèle se trompe.

Principales conclusions de la recherche :

Le modèle est épistémiquement non calibré. Sa certitude dépend du format du prompt plutôt que de l'exactitude.
Une confiance élevée ne signifie pas une exactitude élevée.
Le modèle est le plus sûr de lui lorsqu'il commet des erreurs sur des cas simples.
Les modèles traditionnels comme XGBoost surpassent les LLM sur les données tabulaires structurées.

Pourquoi cela se produit-il ?

Les LLM apprennent à partir du langage naturel. Ils manquent d'intuition face à des lignes de données cliniques chiffrées. Ils s'appuient sur des motifs linguistiques plutôt que sur des preuves de données réelles.

Cela crée un risque dans le secteur de la santé. Si vous faites confiance au score de confiance d'un modèle, vous pourriez accepter une réponse erronée comme un fait.

Les chercheurs ont trouvé un moyen de corriger cela sans réentraîner le modèle :

Combiner des exemples few-shot avec l'injection d'attribution SHAP.
Cela a augmenté l'exactitude de 49 % à 75,3 %.
Utiliser un calibrateur inter-modèles.
En comparant le LLM à un modèle de ML classique, vous pouvez détecter quand le LLM n'est pas fiable.
Cette méthode a réduit considérablement le taux d'erreur.

L'essentiel est simple. Ne faites pas confiance aux scores de confiance verbalisés pour les données structurées. Utilisez des pipelines hybrides. Laissez les modèles classiques gérer les chiffres et utilisez les LLM pour le raisonnement et l'explication.

Source: https://arxiv.org/abs/2606.19509

Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi

𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲

Continuer la lecture

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗦𝗰𝗼𝗿𝗲𝘀 𝗟𝘆𝗲

𝗧𝗵𝗲 𝗧𝗲𝗹𝗹 𝗪𝗲 𝗧𝗿𝗮𝗶𝗻𝗲𝗱 𝗢𝘂𝘁

Votre LLM avait raison, mais l'était-il pour la bonne raison ?