Mi detector de sesgos encontró "cherry-picking" en "no info"

Creé un proyecto llamado Biassemble.

El objetivo es sencillo. Le proporcionas una historia. El sistema hace preguntas. Identifica sesgos cognitivos en tu razonamiento.

Lo probé con una historia sobre una mujer llamada Anna. Su historia contenía solo hechos. Bebió café. Tomó un autobús. Caminó hacia su oficina. No había opiniones ni emociones en el texto.

Mi primer prompt tenía una regla: detectar al menos un sesgo de una lista.

Esta regla obligaba al sistema a encontrar algo. Incluso cuando no existía nada, el sistema intentaba inventar un sesgo.

Actualicé el prompt a la versión 1.0.0. Añadí un requisito de evidencia. El sistema tenía que citar partes específicas de la historia para demostrar que existía un sesgo.

Pensé que esto solucionaría el problema. No fue así.

Cuando respondí "no info" a las preguntas de seguimiento, el sistema me señaló por "cherry-picking". Argumentó que mi negativa a especular era una elección deliberada para omitir datos.

El sistema tenía razón técnica. Dije "no info" cuatro veces. Citó mis palabras exactas. Pero la conclusión era errónea. Convirtió la falta de información en un error de razonamiento.

La fundamentación (grounding) hizo que las citas fueran honestas. No hizo que las conclusiones fueran correctas.

Lancé la versión 1.1.0. Añadí tres nuevas comprobaciones:

Los resultados cambiaron. Con las mismas respuestas de "no info", la versión 1.1.0 no reportó ningún sesgo. Reconoció que mis respuestas eran descriptivas en lugar de interpretativas.

La diferencia entre las dos versiones no es la evidencia. La diferencia es cómo el sistema trata el "no lo sé".

Una versión ve el "no lo sé" como un signo de sesgo. La otra lo ve como una respuesta válida. Debes decirle al modelo cómo manejar esto. No lo decidirá por sí mismo.

Ahora estoy construyendo métricas para probar esto. Necesito saber si el sistema realmente mejoró o si simplemente aprendió a ignorar esta historia específica.

Pensé que estaba construyendo un detector de sesgos. En cambio, aprendí por qué los sistemas de razonamiento tienen dificultades con el "no lo sé".

Fuente: https://dev.to/lemind/my-bias-detector-found-cherry-picking-in-the-answer-no-info-9hf

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi