Il mio rilevatore di bias ha trovato del cherry-picking in "no info"
Ho costruito un progetto chiamato Biassemble.
L'obiettivo è semplice. Gli fornisci una storia. Lui pone delle domande. Segnala i bias cognitivi nel tuo modo di ragionare.
L'ho testato con una storia su una donna di nome Anna. La sua storia conteneva solo fatti. Ha bevuto un caffè. Ha preso l'autobus. È andata a piedi in ufficio. Nel testo non c'erano opinioni o emozioni.
Il mio primo prompt aveva una regola: rileva almeno un bias da un elenco.
Questa regola ha costretto il sistema a trovare qualcosa. Anche quando non esisteva nulla, il sistema ha cercato di inventare un bias.
Ho aggiornato il prompt alla versione 1.0.0. Ho aggiunto il requisito di fornire prove. Il sistema doveva citare parti specifiche della storia per dimostrare l'esistenza di un bias.
Pensavo che questo avesse risolto il problema. Non è stato così.
Quando ho risposto "no info" alle domande di approfondimento, il sistema mi ha segnalato per cherry-picking. Ha sostenuto che il mio rifiuto di speculare fosse una scelta deliberata di omettere i dati.
Il sistema era tecnicamente corretto. Ho detto "no info" quattro volte. Ha citato le mie parole esatte. Ma la conclusione era sbagliata. Ha trasformato una mancanza di informazioni in un errore di ragionamento.
Il grounding ha reso le citazioni oneste. Non ha reso corrette le conclusioni.
Ho rilasciato la versione 1.1.0. Ho aggiunto tre nuovi controlli:
- Un controllo di sufficienza all'inizio.
- Una regola di esclusione delle prove.
- Una soglia di confidenza.
I risultati sono cambiati. Con le stesse risposte "no info", la versione 1.1.0 non ha segnalato alcun bias. Ha riconosciuto che le mie risposte erano descrittive piuttosto che interpretative.
La differenza tra le due versioni non è nelle prove. La differenza è nel modo in cui il sistema tratta il "non lo so".
Una versione vede il "non lo so" come un segno di bias. L'altra lo vede come una risposta valida. Devi dire al modello come gestire questa situazione. Non deciderà da solo.
Ora sto costruendo delle metriche per testare questo aspetto. Ho bisogno di sapere se il sistema è effettivamente migliorato o se ha solo imparato a ignorare questa specifica storia.
Pensavo di stare costruendo un rilevatore di bias. Invece, ho imparato perché i sistemi di ragionamento faticano con il "non lo so".
Fonte: https://dev.to/lemind/my-bias-detector-found-cherry-picking-in-the-answer-no-info-9hf
Community di apprendimento opzionale: https://t.me/GyaanSetuAi