הערכת איכות פלט של LLM בסביבת ייצור (Production)

במרץ 2023, GPT-4 זיהה מספרים ראשוניים בדיוק של 97.6%. עד יוני 2023, אותו מודל צנח לדיוק של 2.4%. אף אחד לא שינה את הקוד. אף אחד לא שינה את ה-prompt. המודל פשוט זז.

זוהי בעיית הליבה עם LLMs בסביבת ייצור. אתם לא שולטים במודל. זוהי תלות שנוטה לסחף (drift). אם לא תמדדו אותה, המשתמשים שלכם יגידו לכם שהיא שבורה.

אי אפשר להסתמך על "תחושות בטן" או על "זה נראה לי בסדר". אתם זקוקים לאותות (signals) שניתן לשחזר.

תוכנה מסורתית היא דטרמיניסטית. אותה קלט שווה לאותו פלט. LLMs שוברים את הכלל הזה. הן אינן דטרמיניסטיות, והמושג "נכון" הוא לעיתים קרובות מעורפל.

כדי לנהל זאת, אתם זקוקים לשלוש שכבות של הערכה:

  • Offline evals: הרצת סט בדיקות קבוע בכל שינוי כדי לזהות רגרסיות.
  • Reference-free checks: שימוש באותות כמו זיהוי הזיות (hallucination detection) כשאין לכם תשובה "נכונה".
  • Production monitoring: מעקב אחר תעבורה אמיתית כדי לזהות סחף (drift) וירידות באיכות.

הבסיס הוא Golden Dataset. אל תשתמשו בדגימות אקראיות. השתמשו בסט שנבחר בקפידה של מקרים קשים. השתמשו בקלטים ריקים, במקרי קצה מוזרים וב-adversarial prompts. 80 דוגמאות חדות מנצחות 8,000 דוגמאות אקראיות.

כשמשתמשים ב-LLM כשופט, שימו לב להטיות (biases) הבאות:

  • Position bias: שופטים נוטים לעיתים קרובות להעדיף את התשובה הראשונה שהם רואים. תקנו זאת על ידי הרצת השוואות בשני הסדרים.
  • Verbosity bias: שופטים מתגמלים תשובות ארוכות יותר גם אם הן פחות ברורות.
  • Self-enhancement bias: מודלים מעדיפים טקסט ממשפחת המודלים שלהם. השתמשו במשפחות מודלים שונות כדי לשפוט פלטים.

לניטור בזמן אמת, השתמשו ב-RAG Triad כדי לבדוק:

  • Faithfulness: האם התשובה נצמדת להקשר (context)?
  • Answer relevance: האם היא עונה על השאלה?
  • Context relevance: האם המערכת שלפה את המסמכים הנכונים?

הפסיקו להתייחס לאיכות המודל כתכונה קבועה. התייחסו אליה כמו לזמן תגובה (latency) או לשיעורי שגיאות. היא משתנה. התפקיד שלכם הוא להבחין מתי היא מפסיקה להיות טובה.

התחילו בקטן. כתבו 20 דוגמאות "זהב" (golden examples). השתמשו בהן כדי לשלוט בפריסות (deploys) שלכם. הוסיפו מאוחר יותר היוריסטיקות זולות לסביבת הייצור.

הצוותים שישנים בשקט הם לא אלו עם המודלים החכמים ביותר. הם אלו שיודעים תוך שעה אם המודל שלהם נהיה פחות חכם.

מקור: https://dev.to/nazar_boyko/evaluating-llm-output-quality-in-production-39an

קהילת למידה אופציונלית: https://t.me/GyaanSetuAi