Stop Asking LLMs If Their Sources Are Real
אתם מבקשים מבינה מלאכותית רשימת מקורות. היא מספקת לכם כותרות, מחברים ו-DOIs. הכל נראה מושלם. ואז אתם מגלים שמחציתם בכלל לא קיימים.
ה-DOI לא מוביל לשום מקום. המאמר מעולם לא נכתב.
האינסטינקט שלכם הוא לשאול את המודל: "אתה בטוח שזה אמיתי?" הבינה המלאכותית תענה כן. היא תמיד עונה כן. אתם שואלים זיוף אם עבודתו אותנטית.
LLM לא משתמש במאגר נתונים של מאמרים. הוא חוזה את המילה הבאה ברצף. עבור בינה מלאכותית, ציטוט הוא רק תבנית. היא יודעת שציטוט צריך שם, שנה ועשרה ספרות. היא מחקה את הצורה של מקור אמיתי מבלי להכיל את האמת.
הפסיקו לבקש מהמודל לאמת את העבודה של עצמו. הוא לא יכול לעשות זאת משתי סיבות:
- אין לו גישה לרישום (registry) חי. הוא רק מייצר טקסט שנראה סביר.
- יש לו הטיה לאישור של מה שהוא כבר אמר.
עליכם להשתמש בכלים חיצוניים כדי לאמת מידע. הנה מסנן בן שלושה שלבים לכתיבה טכנית:
קיום. בדקו את ה-DOI מול API כמו Crossref. אם ה-API מחזיר שגיאת 404, המקור מזויף. DOI שהומצא לעולם לא יחזור לכתובת.
אמינות. מקור יכול להיות קיים אך עדיין חסר ערך. בדקו אם כתב העת או הכנס מוכרים. DOI תקף אינו מבטיח איכות.
דיוק (Fidelity). האם המאמר באמת תומך בטענה שלכם? עליכם לקרוא את התוכן. אל תניחו שהתקציר (abstract) מכסה כל פרט. ציטוט אמיתי המשמש לטענה שקרית הוא עדיין שקר.
זה תקף ליותר מאשר רק מאמרים אקדמיים. אם בינה מלאכותית מצטטת כרטיס JIRA, מספר CVE או commit של קוד, עליכם לאמת זאת מול המערכת בפועל.
הטעות הגדולה ביותר בארכיטקטורת AI היא לסמוך על המודל שיבצע אימות עצמי. אימות חייב להיות שלב נפרד. הוא חייב להתחבר למקור אמת חיצוני לפני שהמשתמש רואה את התוצאה.
אל תנסו להפוך את המודלים ליותר ישרים. הם מחוללי טקסט, והם תמיד יחוו הזיות (hallucinate). במקום זאת, הפסיקו לקחת אותם על דברים.
ציטוט שאינכם יכולים לאמת מול רישום אינו ציטוט. זוהי השערה בחלוק מעבדה.
Source: https://dev.to/ohugonnot/stop-asking-the-llm-whether-its-source-is-real-2oaa
Optional learning community: https://t.me/GyaanSetuAi
