איך למנוע מבינה מלאכותית לתייג הסקה בטעות כעובדה
סוכני מחקר מבוססי בינה מלאכותית מערבבים לעיתים קרובות עובדות עם ניחושים. דף אינטרנט עשוי לציין ערך שוק מסוים. הסוכן יסיק לאחר מכן שהשוק צומח במהירות. שתי ההצהרות נראות זהות בטקסט הסופי. הערבוב הזה בין נתונים לבין דעה הוא מסוכן.
לא ניתן לתקן זאת באמצעות הנחיות (prompts) טובות יותר. הנחיות הן הסתברותיות. תחת לחץ, המודל פשוט ינחש.
הפתרון הוא מבני. העבירו את קבלת ההחלטות מה-LLM לקוד שלכם.
חלקו את העבודה לשני חלקים:
ה-LLM מבצע:
- חילוץ טענות מדף.
- סיכום טקסט.
קוד דטרמיניסטי מבצע:
- דירוג טענות.
- אימות צולב של מקורות.
- תיוג טענות כ-FACT או כ-INFERENCE.
- קביעה האם הנתונים עדכניים.
טענה תקבל את התווית FACT רק אם היא עומדת בכללים מחמירים. לדוגמה, היא חייבת להגיע משני מקורות עצמאיים או מ-API רשמי אחד. כל דבר אחר יהפוך ל-INFERENCE.
השתמשו בתהליך (pipeline) הבא:
- PLAN: הפכו את השאלה לתתי-שאילתות.
- HARVEST: שלפו נתונים ממספר נתיבים.
- NORMALIZE: השתמשו ב-LLM כדי לחלץ טענות מובנות. זהו השלב היחיד שמשתמש ב-LLM.
- CORROBORATE: קבצו טענות וספרו מקורות עצמאיים.
- SCORE: החילו כללים להקצאת תגיות.
- RENDER: הציגו עובדות, הסקות ומידע חסר.
עצמאות היא המפתח. בלוג אחד שמצטט בלוג אחר אינו נחשב לשני מקורות. עליכם להשתמש בדומיינים נפרדים או ב-API רשמי כדי לאשר עובדה.
עקבו אחר הכללים הללו עבור סוכן אמין:
- השתמשו בהסלמה: נסו חיפוש באינטרנט תחילה. עברו למנוע חדשות או לחיפוש אקדמי רק אם השלב הראשון נכשל.
- עקבו אחר רעננות: תייגו נתונים ישנים כ-stale. אל תתנו לעובדות ישנות לעבור כעובדות עדכניות.
- חשפו פערים: רשמו את מה שלא הצלחתם למצוא. פער שנותר שקט הוא כישלון.
- הבטיחו יכולת שחזור (reproducibility): אותה שאילתה חייבת להניב את אותן תגיות בכל פעם. אם התגיות משתנות, סימן ש-LLM הוא זה שדירג את הנתונים. החליפו את הקריאה ל-LLM הזו בפונקציה.
שיטה זו מאפשרת למודל לעשות את מה שהוא עושה הכי טוב: לקרוא ולחלץ. היא מונעת מהמודל להחליט מה נכון.
קהילת למידה אופציונלית: https://t.me/GyaanSetuAi
