Mein Bias-Detektor hat Cherry-Picking in „No Info“ gefunden
Ich habe ein Projekt namens Biassemble entwickelt.
Das Ziel ist einfach. Man füttert es mit einer Geschichte. Es stellt Fragen. Es markiert kognitive Verzerrungen in der Art und Weise, wie man argumentiert.
Ich habe es mit einer Geschichte über eine Frau namens Anna getestet. Ihre Geschichte enthielt nur Fakten. Sie trank Kaffee. Sie nahm einen Bus. Sie ging zu ihrem Büro. Der Text enthielt weder Meinungen noch Emotionen.
Mein erster Prompt hatte eine Regel: Erkennt mindestens einen Bias aus einer Liste.
Diese Regel zwang das System dazu, etwas zu finden. Selbst wenn nichts vorhanden war, versuchte das System, einen Bias zu erfinden.
Ich habe den Prompt auf Version 1.0.0 aktualisiert. Ich habe eine Anforderung für Belege hinzugefügt. Das System musste spezifische Teile der Geschichte zitieren, um zu beweisen, dass ein Bias existierte.
Ich dachte, das würde das Problem lösen. Das tat es nicht.
Als ich auf Folgefragen mit „no info“ antwortete, markierte mich das System wegen Cherry-Picking. Es argumentierte, dass meine Weigerung zu spekulieren eine bewusste Entscheidung war, Daten wegzulassen.
Das System war technisch gesehen korrekt. Ich hatte tatsächlich viermal „no info“ gesagt. Es zitierte meine exakten Worte. Aber die Schlussfolgerung war falsch. Es verwandelte einen Mangel an Informationen in einen Denkfehler.
Grounding machte die Zitate ehrlich. Es machte die Schlussfolgerungen nicht richtig.
Ich habe Version 1.1.0 veröffentlicht. Ich habe drei neue Prüfungen hinzugefügt:
- Ein Sufficiency-Check zu Beginn.
- Eine Regel zum Ausschluss von Belegen.
- Ein Konfidenzschwellenwert.
Die Ergebnisse änderten sich. Mit denselben „no info“-Antworten meldete Version 1.1.0 keinen Bias. Es erkannte, dass meine Antworten beschreibend und nicht interpretierend waren.
Der Unterschied zwischen den beiden Versionen liegt nicht an den Belegen. Der Unterschied liegt darin, wie das System mit „Ich weiß es nicht“ umgeht.
Eine Version sieht „Ich weiß es nicht“ als Anzeichen für einen Bias. Die andere sieht es als eine gültige Antwort. Man muss dem Modell sagen, wie es damit umgehen soll. Es wird es nicht von selbst entscheiden.
Ich entwickle nun Metriken, um dies zu testen. Ich muss wissen, ob sich das System tatsächlich verbessert hat oder ob es nur gelernt hat, diese spezifische Geschichte zu ignorieren.
Ich dachte, ich baue einen Bias-Detektor. Stattdessen habe ich gelernt, warum Reasoning-Systeme mit „Ich weiß es nicht“ zu kämpfen haben.
Source: https://dev.to/lemind/my-bias-detector-found-cherry-picking-in-the-answer-no-info-9hf
Optional learning community: https://t.me/GyaanSetuAi