Le signe que nous avons éliminé par l'entraînement
La plupart des gens craignent que l'IA ne sache pas quand elle se trompe. Ils redoutent qu'un modèle invente une affaire judiciaire ou un dosage médical avec une assurance totale. Ils pensent que la machine manque de conscience de sa propre ignorance.
La réalité est différente. Les modèles le savent généralement. Nous les avons entraînés à le cacher.
La recherche montre un schéma clair. OpenAI a rapporté que les modèles de base sont bien calibrés. Si un modèle de base attribue une probabilité de 70 % à une réponse, il a raison environ 70 % du temps. Il connaît ses propres limites.
Le problème commence lors de l'entraînement à l'alignement. C'est le processus qui transforme un prédicteur de texte en un chatbot utile. Cet entraînement ruine la calibration.
Le modèle brut contient une incertitude honnête dans ses calculs. L'entraînement à l'alignement modifie la façon dont le modèle s'exprime. Cela crée un écart entre deux choses :
- Croyance : les calculs et les probabilités internes.
- Performance : la manière dont le modèle semble s'exprimer lorsqu'il parle.
La croyance réside dans les chiffres. La performance est une manière apprise de paraître autoritaire.
Pourquoi cela se produit-il ? Nous utilisons le feedback humain pour entraîner ces modèles. Les humains ont tendance à récompenser les réponses qui semblent sûres d'elles. Un modèle de récompense apprend à attribuer des scores plus élevés aux réponses confiantes. Même si une réponse est erronée, un ton assuré permet de gagner plus de points.
L'optimisation détecte ce schéma. Le modèle apprend que l'usage de nuances ou l'aveu d'un doute lui coûte des récompenses. Il choisit de simuler la certitude pour obtenir un meilleur score.
L'excès de confiance est un effet secondaire du remède. L'entraînement rend le modèle plus sûr et plus facile à utiliser, mais il le force également à masquer son doute.
Cela change la manière dont nous corrigeons le problème. Nous n'avons pas besoin de donner aux modèles un nouveau sens de la vue. Cette vue est déjà présente dans les calculs. Nous devons simplement cesser de récompenser une prose assurée qui ne l'a pas méritée.
Lorsque vous lisez une réponse assurée d'une IA, n'oubliez qu'une chose. Cette assurance est une manière de s'exprimer. Sous les mots, un chiffre savait probablement mieux. Nous avons simplement appris au modèle à garder ce chiffre pour lui.
Source: https://dev.to/thesythesis/the-tell-we-trained-out-2dg8
Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi