שליפה היברידית ו-Observability של סוכנים
רוב מערכות ה-RAG נכשלות בסביבת ייצור (production). הן לא נכשלות בגלל מודל השפה; הן נכשלות בשלב השליפה (retrieval).
המערכת נכשלת בשליפת מקטע הנתונים (data chunk) הנכון, או שהיא שולפת את הנתונים אך קוברת אותם בדירוג 40. הגנרטור לעולם לא רואה את המידע, ולצוות שלכם אין דרך לראות מה השתבש.
הארכיטקטורה הזו פותרת את שתי הבעיות.
עקבו אחר שלושת השלבים הללו לתוצאות טובות יותר:
השתמשו בשליפה היברידית (Hybrid Retrieval) הריצו חיפוש BM25 לקסיקלי וחיפוש סמנטי דחוס (dense semantic search) בו-זמנית. השתמשו ב-reciprocal rank fusion כדי למזג את הרשימות. מדדים (benchmarks) מראים שזה מוסיף 8 נקודות אחוז ל-Recall@5 על נתוני טקסט וטבלאות בהשוואה ל-BM25 לבדו.
הוסיפו Reranker Reranker הוא הדרך הטובה ביותר שלכם להגדיל את הדיוק (precision). השתמשו ב-cross-encoder על 50 עד 100 המועמדים המובילים. שלב זה משפר את התוצאות שלכם משמעותית.
התמקדו ב-Observability אתם זקוקים ל-traces כדי למצוא שגיאות ב-retrieval pipeline שלכם. ללא traces, לא תוכלו לתקן את המערכת.
בנו את מערכת ה-RAG שלכם לפי סטנדרטים אלו של סביבת ייצור.
Source: https://dev.to/rishi_kora/hybrid-retrieval-and-agent-observability-a-production-rag-build-2h6p
Optional learning community: https://t.me/GyaanSetuAi