מזהה ההטיות שלי מצא Cherry-Picking ב-"No Info"
בניתי פרויקט בשם Biassemble.
המטרה פשוטה. מזינים לו סיפור. הוא שואל שאלות. הוא מסמן הטיות קוגניטיביות באופן שבו אתם מסיקים מסקנות.
בדקתי אותו עם סיפור על אישה בשם אנה. הסיפור שלה הכיל רק עובדות. היא שתתה קפה. היא תפסה אוטובוס. היא הלכה למשרד שלה. לא היו בטקסט דעות או רגשות.
הפרומפט הראשון שלי כלל כלל אחד: זהה לפחות הטיה אחת מרשימה.
הכלל הזה אילץ את המערכת למצוא משהו. גם כששום דבר לא היה קיים, המערכת ניסתה להמציא הטיה.
עדכנתי את הפרומפט לגרסה 1.0.0. הוספתי דרישה לראיות. המערכת הייתה צריכה לצטט חלקים ספציפיים מהסיפור כדי להוכיח שקיימת הטיה.
חשבתי שזה פותר את הבעיה. זה לא פתר.
כשעניתי "no info" לשאלות המשך, המערכת סימנה אותי ב-Cherry-Picking. היא טענה שהסירוב שלי להעלות השערות היה בחירה מכוונת להשמטת נתונים.
המערכת הייתה צודקת מבחינה טכנית. אכן אמרתי "no info" ארבע פעמים. היא ציטטה את המילים המדויקות שלי. אבל המסקנה הייתה שגויה. היא הפכה חוסר במידע לשגיאת הסקה.
Grounding הפך את הציטוטים לאמינים. הוא לא הפך את המסקנות לצודקות.
שחררתי את גרסה 1.1.0. הוספתי שלושה בדיקות חדשות:
- בדיקת מספיקות (sufficiency check) בהתחלה.
- כלל של החרגת ראיות (evidence-exclusion rule).
- סף ביטחון (confidence threshold).
התוצאות השתנו. עם אותן תשובות "no info", גרסה 1.1.0 דיווחה על היעדר הטיה. היא זיהתה שהתשובות שלי היו תיאוריות ולא פרשניות.
ההבדל בין שתי הגרסאות אינו הראיות. ההבדל הוא האופן שבו המערכת מתייחסת ל-"I don't know".
גרסה אחת רואה ב-"I don't know" סימן להטיה. השנייה רואה בזה תשובה תקפה. עליכם להגיד למודל איך להתמודד עם זה. הוא לא יחליט לבד.
אני בונה כעת מדדים (metrics) כדי לבדוק זאת. אני צריך לדעת אם המערכת באמת השתפרה או שהיא פשוט למדה להתעלם מהסיפור הספציפי הזה.
חשבתי שאני בונה מזהה הטיות. במקום זאת, למדתי מדוע מערכות הסקה מתקשות עם "I don't know".
מקור: https://dev.to/lemind/my-bias-detector-found-cherry-picking-in-the-answer-no-info-9hf
קהילת למידה אופציונלית: https://t.me/GyaanSetuAi