La confianza de Qwen 2.5 7B no es fiable
Los modelos de lenguaje de gran tamaño suelen mentir sobre su nivel de certeza.
Un nuevo estudio de la Universidad de Minnesota muestra un fallo importante en Qwen 2.5 7B. Cuando este modelo trabaja con datos clínicos, sus puntuaciones de confianza se mantienen casi iguales.
El modelo reporta una confianza de entre 0,856 y 0,937. Esto ocurre incluso cuando el modelo se equivoca.
Hallazgos clave de la investigación:
- El modelo no está calibrado epistémicamente. Su certeza depende del formato del prompt en lugar de la precisión.
- Una alta confianza no significa una alta precisión.
- El modelo se equivoca con mayor confianza en los casos fáciles.
- Los modelos tradicionales como XGBoost superan a los LLM en datos tabulares estructurados.
¿Por qué sucede esto?
Los LLM aprenden del lenguaje natural. Carecen de intuición para las filas de números clínicos. Dependen de patrones lingüísticos en lugar de evidencia de datos reales.
Esto crea un riesgo en la atención médica. Si confías en la puntuación de confianza de un modelo, podrías aceptar una respuesta incorrecta como un hecho.
Los investigadores encontraron una forma de solucionar esto sin reentrenar el modelo:
- Combinar ejemplos few-shot con la inyección de atribución SHAP.
- Esto aumentó la precisión del 49 % al 75,3 %.
- Usar un calibrador entre modelos (cross-model calibrator).
- Al comparar el LLM con un modelo de ML clásico, se puede detectar cuándo el LLM no es fiable.
- Este método redujo la tasa de error significativamente.
La conclusión es sencilla. No confíes en las puntuaciones de confianza verbalizadas para datos estructurados. Utiliza pipelines híbridos. Deja que los modelos clásicos se encarguen de los números y utiliza los LLM para el razonamiento y la explicación.
Fuente: https://arxiv.org/abs/2606.19509
Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi