מתן "מוח סמנטי" ל-AgentGateway
הניתוב של סוכני ה-AI שלי היה פעם בלגן רציני.
בניתי סוכן AI אישי בשם Pi. הוא פועל 24/7 מהסלון שלי. כדי לחסוך כסף, השתמשתי בשלושה מודלים שונים:
- Ollama (מקומי) לכתיבת קוד.
- OpenAI לחשיבה עמוקה (deep reasoning).
- Gemini למשימות מהירות.
כדי לבחור את המודל הנכון, השתמשתי בסקריפט Python עם רשימות מילות מפתח. זה היה שרשרת פשוטה של if-else.
זה נכשל כל הזמן. אם משתמש שאל על תבניות Rust מבלי להשתמש במילות המפתח הספציפיות שלי, הנתב שלח אותו למודל הלא נכון. אם משתמש דיבר בהינדי, זה נשבר.
התוצאות היו גרועות:
- 18% מהבקשות נשלחו למודל הלא נכון.
- בזבזתי כסף על APIs יקרים למשימות פשוטות.
- הייתי צריך לעדכן מילות מפתח ידנית בכל שבוע.
הייתי צריך מערכת שמבינה משמעות, לא רק מילות מפתח.
עברתי ל-vLLM Semantic Router עם AgentGateway. זה שינה הכל.
במקום סקריפט Python, ה-Semantic Router עובד כ-Envoy sidecar. הוא משתמש במודל embedding קטן של 130MB כדי להבין את הכוונה (intent) של כל prompt. אתם לא כותבים מילות מפתח. אתם פשוט כותבים תיאור של מה כל מודל עושה בקובץ YAML.
התוצאות לאחר שבועיים:
- בקשות שנותבו בטעות ירדו מ-18% ל-3%.
- השהיית הניתוב (latency) ירדה מ-45ms ל-1ms.
- עלויות ה-API החודשיות ירדו מ-$24 ל-$14.
- התחזוקה היא כעת אפסית.
הנתב משתמש ב-embeddings כדי להשוות את ה-prompt שלכם מול תיאורי המודלים שלכם. אם תתארו מודל כמומחה לכתיבת קוד, הנתב ישלח אליו prompts של קוד באופן אוטומטי. זה אפילו עובד בשפות שונות.
אם הנתב נכשל, המערכת נשארת אונליין. הגדרתי מדיניות fail-open. אם הנתב קורס, הבקשות עוברות ל-Gemini באופן אוטומטי. הסוכן לעולם לא מפסיק לעבוד.
אפילו מצאתי ועזרתי לתקן שני באגים בקוד המקור שקשורים לתמיכה ב-ARM64 על Apple Silicon. ככה קוד פתוח אמור לעבוד. אתם מוצאים בעיה, תורמים תיקון, וכל הקהילה משתפרת.
אם אתם בונים סוכני AI, תפסיקו להשתמש בהתאמת מילות מפתח. השתמשו בניתוב סמנטי (semantic routing) כדי לשלוט בעלויות שלכם ולשפר את התשובות שלכם.
קהילת למידה אופציונלית: https://t.me/GyaanSetuAi