El indicio que eliminamos con el entrenamiento

Translated for your language. Leer el original.

AI-assisted draft.

hace 3 horas2min de lectura

El indicio que eliminamos con el entrenamiento

La mayoría de la gente teme que la IA no sepa cuándo se equivoca. Les preocupa que un modelo invente un caso judicial o una dosis médica con total confianza. Piensan que a la máquina le falta conciencia de su propia ignorancia.

La realidad es distinta. Los modelos suelen saberlo. Los entrenamos para ocultarlo.

La investigación muestra un patrón claro. OpenAI informó que los modelos base están bien calibrados. Si un modelo base asigna una probabilidad del 70 por ciento a una respuesta, acierta aproximadamente el 70 por ciento de las veces. Conoce sus propios límites.

El problema comienza durante el entrenamiento de alineación. Este es el proceso que convierte a un predictor de texto en un chatbot útil. Este entrenamiento arruina la calibración.

El modelo en bruto mantiene una incertidumbre honesta en sus cálculos matemáticos. El entrenamiento de alineación cambia la forma en que el modelo habla. Crea una brecha entre dos cosas:

Creencia: Las matemáticas y probabilidades internas.
Desempeño: La forma en que suena el modelo

El indicio que eliminamos con el entrenamiento

Seguir leyendo

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

Confianza inflada: Cómo la IA crea una falsa confianza

Lo que casi se dijo

Por qué tus puntuaciones de confianza de la IA mienten

La IA está exponiendo la deuda técnica que ignorábamos