דירוג סוכני AI: מדדים דטרמיניסטיים + שופט LLM

אתם מריצים הרבה סוכני AI קטנים. יש לכם סוכנים עבור backend, frontend, mobile ו-devops. לכל סוכן יש משימה אחת.

כשעובדים עם הרבה סוכנים, אתם נתקלים בבעיה. אתם לא יודעים אם הם טובים. אתם לא יודעים אם עריכה של prompt הופכת אותם לטובים יותר או גרועים יותר. להגיד "זה נראה בסדר" לא עובד בקנה מידה רחב.

בניתי framework כדי לפתור את זה. הוא משתמש במספרים כדי למדוד ביצועים ומשפר prompts באופן אוטומטי.

האסטרטגיה

קודם כל, מדדו את מה שאפשר למדוד באמצעות מתמטיקה. השתמשו בשופט LLM רק כשחייבים. מדדים דטרמיניסטיים הם מהירים וחינמיים. שופט LLM הוא איטי ועולה כסף.

איך המערכת עובדת:

• ה-harness מריץ כל סוכן כתהליך נפרד. • הוא מזין משימה לסוכן. • הוא לוכד את הפלט. • הוא מדרג את התוצאה מול הנתונים הצפויים.

הסוכן צריך רק לקרוא מ-stdin ולכתוב ל-stdout. הוא יכול להיות ב-Python או כסקריפט shell. ל-harness לא אכפת.

חמישה מדדי ליבה למעקב:

  • Accuracy (דיוק): האם הפלט תואם למטרה?
  • Fuzzy score: עד כמה הטקסט דומה ליעד?
  • Timeout rate: באיזו תדירות הסוכן נכשל בסיום המשימה?
  • Safety violations (הפרות בטיחות): האם הפלט תואם לתבניות לא בטוחות?
  • Reproducibility variance (שונות בשחזוריות): האם הסוכן נותן את אותה תשובה בכל פעם?

אם סוכן נכון אך לא עקבי, זוהי באג.

שופט ה-LLM

יש דברים שקשה למדוד באמצעות מתמטיקה. אתם צריכים לדעת אם הסוכן נשאר בתפקידו או עמד במגבלות.

במקרים אלו, שופט LLM סוקר את העבודה. הוא מקבל rubric (מחוון) ואת פלט הסוכן. הוא מחזיר פסק דין מובנה. אני מאמת את פסק הדין הזה מול JSON schema כדי שהוא לא ישבור את הדוח.

השופט עושה יותר מסתם דירוג. הוא חייב להציע תיקונים. ביקורת כמו "זה חלש" היא חסרת תועלת. ביקורת כמו "הוסף בלוק JSON ל-prompt" היא ניתנת לביצוע.

לולאת השיפור

כשלים נשמרים בקובץ. הקובץ הזה מזין לולאה אוטומטית. המערכת בוחנת את החלק החלש ביותר ב-prompt ומנסה לתקן אותו. היא שומרת מאגר של מועמדים טובים וכותבת את הגרסאות הטובות ביותר בחזרה לקוד.

ציון בודד הוא תמונת מצב (snapshot). השתמשו בהיסטוריה כדי לעקוב אחר מגמות. זה יגיד לכם אם אתם משתפרים לאורך זמן.

בנו את התשתית שלכם על מדדים דטרמיניסטיים. השתמשו בשופט כסכין מנתחים, לא כפטיש.

מקור: https://dev.to/pponali/scoring-ai-agents-deterministic-metrics-an-llm-judge-poj

קהילת למידה אופציונלית: https://t.me/GyaanSetuAi