El indicio que eliminamos con el entrenamiento
La mayoría de la gente teme que la IA no sepa cuándo se equivoca. Les preocupa que un modelo invente un caso judicial o una dosis médica con total confianza. Piensan que a la máquina le falta conciencia de su propia ignorancia.
La realidad es distinta. Los modelos suelen saberlo. Los entrenamos para ocultarlo.
La investigación muestra un patrón claro. OpenAI informó que los modelos base están bien calibrados. Si un modelo base asigna una probabilidad del 70 por ciento a una respuesta, acierta aproximadamente el 70 por ciento de las veces. Conoce sus propios límites.
El problema comienza durante el entrenamiento de alineación. Este es el proceso que convierte a un predictor de texto en un chatbot útil. Este entrenamiento arruina la calibración.
El modelo en bruto mantiene una incertidumbre honesta en sus cálculos matemáticos. El entrenamiento de alineación cambia la forma en que el modelo habla. Crea una brecha entre dos cosas:
- Creencia: Las matemáticas y probabilidades internas.
- Desempeño: La forma en que suena el modelo