𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲

Translated for your language. Leer el original.

AI-assisted draft.

hace 14 horas1min de lectura

La confianza de Qwen 2.5 7B no es fiable

Los modelos de lenguaje de gran tamaño suelen mentir sobre su nivel de certeza.

Un nuevo estudio de la Universidad de Minnesota muestra un fallo importante en Qwen 2.5 7B. Cuando este modelo trabaja con datos clínicos, sus puntuaciones de confianza se mantienen casi iguales.

El modelo reporta una confianza de entre 0,856 y 0,937. Esto ocurre incluso cuando el modelo se equivoca.

Hallazgos clave de la investigación:

El modelo no está calibrado epistémicamente. Su certeza depende del formato del prompt en lugar de la precisión.
Una alta confianza no significa una alta precisión.
El modelo se equivoca con mayor confianza en los casos fáciles.
Los modelos tradicionales como XGBoost superan a los LLM en datos tabulares estructurados.

¿Por qué sucede esto?

Los LLM aprenden del lenguaje natural. Carecen de intuición para las filas de números clínicos. Dependen de patrones lingüísticos en lugar de evidencia de datos reales.

Esto crea un riesgo en la atención médica. Si confías en la puntuación de confianza de un modelo, podrías aceptar una respuesta incorrecta como un hecho.

Los investigadores encontraron una forma de solucionar esto sin reentrenar el modelo:

Combinar ejemplos few-shot con la inyección de atribución SHAP.
Esto aumentó la precisión del 49 % al 75,3 %.
Usar un calibrador entre modelos (cross-model calibrator).
Al comparar el LLM con un modelo de ML clásico, se puede detectar cuándo el LLM no es fiable.
Este método redujo la tasa de error significativamente.

La conclusión es sencilla. No confíes en las puntuaciones de confianza verbalizadas para datos estructurados. Utiliza pipelines híbridos. Deja que los modelos clásicos se encarguen de los números y utiliza los LLM para el razonamiento y la explicación.

Fuente: https://arxiv.org/abs/2606.19509

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi

𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲

Seguir leyendo

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

Por qué tus puntuaciones de confianza de la IA mienten

El indicio que eliminamos con el entrenamiento

𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗪𝗮𝘀 𝗥𝗶𝗴𝗵𝘁, 𝗕𝘂𝘁 𝗪𝗮𝘀 𝗜𝘁 𝗥𝗶𝗴𝗵𝘁 𝗳𝗼𝗿 𝘁𝗵𝗲 𝗥𝗶𝗴𝗵𝘁 𝗥𝗲𝗮𝘀𝗼𝗻?