Мій детектор упередженості знайшов cherry-picking у відповіді «no info»
Я створив проєкт під назвою Biassemble.
Мета проста. Ви надаєте йому історію. Він ставить запитання. Він позначає когнітивні упередження у ваших міркуваннях.
Я протестував його на історії про жінку на ім'я Анна. Її історія містила лише факти. Вона пила каву. Вона сіла на автобус. Вона пішла до свого офісу. У тексті не було жодних думок чи емоцій.
Мій перший промпт мав одне правило: виявити принаймні одне упередження зі списку.
Це правило змушувало систему щось знайти. Навіть коли нічого не існувало, система намагалася вигадати упередження.
Я оновив промпт до версії 1.0.0. Я додав вимогу щодо доказів. Система мала цитувати конкретні частини історії, щоб довести наявність упередження.
Я думав, що це вирішить проблему. Але ні.
Коли я відповідав «no info» на уточнювальні запитання, система позначала мене за cherry-picking. Вона стверджувала, що моя відмова будувати припущення була свідомим вибором на користь пропуску даних.
Технічно система була права. Я справді чотири рази сказав «no info». Вона процитувала мої точні слова. Але висновок був хибним. Вона перетворила брак інформації на помилку міркування.
Грунтування (grounding) зробило цитування чесним. Але воно не зробило висновки правильними.
Я випустив версію 1.1.0. Я додав три нові перевірки:
- Перевірка достатності на початку.
- Правило виключення доказів.
- Поріг впевненості.
Результати змінилися. З тими самими відповідями «no info» версія 1.1.0 не виявила жодних упереджень. Вона розпізнала, що мої відповіді були описовими, а не інтерпретаційними.
Різниця між двома версіями не в доказах. Різниця в тому, як система сприймає «я не знаю».
Одна версія бачить у «я не знаю» ознаку упередженості. Інша — бачить у цьому валідну відповідь. Ви повинні сказати моделі, як з цим поводитися. Вона не вирішить це сама.
Зараз я розробляю метрики для тестування цього. Мені потрібно знати, чи справді система покращилася, чи вона просто навчилася ігнорувати саме цю історію.
Я думав, що створюю детектор упередженості. Натомість я зрозумів, чому системи міркування мають труднощі з «я не знаю».
Source: https://dev.to/lemind/my-bias-detector-found-cherry-picking-in-the-answer-no-info-9hf
Optional learning community: https://t.me/GyaanSetuAi