𝗦𝗰𝗼𝗿𝗶𝗻𝗴 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀: 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗠𝗲𝘁𝗿𝗶𝗰𝘀 + 𝗮𝗻 𝗟𝗟𝗠 𝗝𝘂𝗱𝗴𝗲

Translated for your language. Read the original.

AI-assisted draft.

לפני 4 ימים2min read

In this article

דירוג סוכני AI: מדדים דטרמיניסטיים + שופט LLM

אתם מריצים הרבה סוכני AI קטנים. יש לכם סוכנים עבור backend, frontend, mobile ו-devops. לכל סוכן יש משימה אחת.

כשעובדים עם הרבה סוכנים, אתם נתקלים בבעיה. אתם לא יודעים אם הם טובים. אתם לא יודעים אם עריכה של prompt הופכת אותם לטובים יותר או גרועים יותר. להגיד "זה נראה בסדר" לא עובד בקנה מידה רחב.

בניתי framework כדי לפתור את זה. הוא משתמש במספרים כדי למדוד ביצועים ומשפר prompts באופן אוטומטי.

האסטרטגיה

קודם כל, מדדו את מה שאפשר למדוד באמצעות מתמטיקה. השתמשו בשופט LLM רק כשחייבים. מדדים דטרמיניסטיים הם מהירים וחינמיים. שופט LLM הוא איטי ועולה כסף.

איך המערכת עובדת:

• ה-harness מריץ כל סוכן כתהליך נפרד. • הוא מזין משימה לסוכן. • הוא לוכד את הפלט. • הוא מדרג את התוצאה מול הנתונים הצפויים.

הסוכן צריך רק לקרוא מ-stdin ולכתוב ל-stdout. הוא יכול להיות ב-Python או כסקריפט shell. ל-harness לא אכפת.

חמישה מדדי ליבה למעקב:

Accuracy (דיוק): האם הפלט תואם למטרה?
Fuzzy score: עד כמה הטקסט דומה ליעד?
Timeout rate: באיזו תדירות הסוכן נכשל בסיום המשימה?
Safety violations (הפרות בטיחות): האם הפלט תואם לתבניות לא בטוחות?
Reproducibility variance (שונות בשחזוריות): האם הסוכן נותן את אותה תשובה בכל פעם?

אם סוכן נכון אך לא עקבי, זוהי באג.

שופט ה-LLM

יש דברים שקשה למדוד באמצעות מתמטיקה. אתם צריכים לדעת אם הסוכן נשאר בתפקידו או עמד במגבלות.

במקרים אלו, שופט LLM סוקר את העבודה. הוא מקבל rubric (מחוון) ואת פלט הסוכן. הוא מחזיר פסק דין מובנה. אני מאמת את פסק הדין הזה מול JSON schema כדי שהוא לא ישבור את הדוח.

השופט עושה יותר מסתם דירוג. הוא חייב להציע תיקונים. ביקורת כמו "זה חלש" היא חסרת תועלת. ביקורת כמו "הוסף בלוק JSON ל-prompt" היא ניתנת לביצוע.

לולאת השיפור

כשלים נשמרים בקובץ. הקובץ הזה מזין לולאה אוטומטית. המערכת בוחנת את החלק החלש ביותר ב-prompt ומנסה לתקן אותו. היא שומרת מאגר של מועמדים טובים וכותבת את הגרסאות הטובות ביותר בחזרה לקוד.

ציון בודד הוא תמונת מצב (snapshot). השתמשו בהיסטוריה כדי לעקוב אחר מגמות. זה יגיד לכם אם אתם משתפרים לאורך זמן.

בנו את התשתית שלכם על מדדים דטרמיניסטיים. השתמשו בשופט כסכין מנתחים, לא כפטיש.

מקור: https://dev.to/pponali/scoring-ai-agents-deterministic-metrics-an-llm-judge-poj

קהילת למידה אופציונלית: https://t.me/GyaanSetuAi

𝗦𝗰𝗼𝗿𝗶𝗻𝗴 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀: 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗠𝗲𝘁𝗿𝗶𝗰𝘀 + 𝗮𝗻 𝗟𝗟𝗠 𝗝𝘂𝗱𝗴𝗲

דירוג סוכני AI: מדדים דטרמיניסטיים + שופט LLM

האסטרטגיה

שופט ה-LLM

לולאת השיפור

Continue reading

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

מערכות AI מרובות סוכנים: מדריך מעשי

הקשחת סוכני AI מפני הזרקת פרומפטים

𝗠𝗮𝘀𝘁𝗲𝗿𝗶𝗻𝗴 𝗟𝗟𝗠 𝗣𝗿𝗼𝗺𝗽𝘁𝗶𝗻𝗴: 𝗔 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿'𝘀 𝗚𝘂𝗶𝗱𝗲

𝗗𝗼𝗻'𝘁 𝗨𝘀𝗲 𝗔𝗻 𝗟𝗟𝗠 𝗧𝗼 𝗗𝗲𝗰𝗶𝗱𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗔𝗰𝘁𝗶𝗼𝗻𝘀