קיצצתי את חשבון הטוקנים של סוכן ה-AI שלי ב-62% בסוף שבוע אחד
סוכן ה-AI שלי עלה 5.40$ למשימה. הפחתתי את העלות הזו ל-2.05$ למשימה בסוף שבוע אחד. השגתי את הירידה של 62% הזו מבלי לאבד איכות.
הנה איך עשיתי את זה.
הבעיה: הסוכן שלי מריץ לולאת מחקר. הוא מחפש באינטרנט, סורק (scrapes) דפים וכותב סיכומים. הוא שרף טוקנים בשלוש דרכים:
- Context stuffing (עומס הקשר): שלחתי למודל דפים שלמים של 50,000 תווים. הייתי צריך רק 2,000 תווים. שילמתי על כל ערימת הקש רק כדי למצוא מחט אחת.
- Verbose prompts (פרומפטים מפורטים מדי): ה-system prompts שלי חזרו על אותן הוראות שלוש פעמים. שילמתי למודל כדי שיקרא מחדש את המילים שלי בכל פעם.
- שימוש יתר במודלים יקרים: השתמשתי במודלי הסקה (reasoning models) ברמה גבוהה למשימות פשוטות כמו סיכום של פסקה בודדת.
הפתרונות:
לסנן לפני ששולחים במקום לשלוח דפים שלמים, אני מחלק כעת את הטקסט למקטעים (chunks). אני מוצא קודם את החלקים הרלוונטיים, ואז שולח רק את החלקים האלו למודל. זה הפחית את טוקני הקלט מ-12,500 ל-3,200 לדף.
לצמצם את ה-system prompt מחקתי הוראות מיותרות. הסרתי תיאורי כלים שהמודל כבר מכיר. הפסקתי להשתמש בביטויים גנריים (boilerplate) כמו "חשוב צעד אחר צעד" (think step-by-step) כי מודלים מודרניים עושים זאת כברירת מחדל.
ניתוב מודלים מדורג (Tiered model routing) הפסקתי להשתמש במודל אחד לכל דבר. חילקתי את המשימות לשלושה רמות:
- Extraction: השתמש במודל קטן וזול.
- Synthesis: השתמש במודל הסקה (reasoning model) ברמה גבוהה.
- Formatting: השתמש במודל קטן וזול.
התוצאות מבדיקה של 50 משימות:
- עלות למשימה: 5.40$ ל-2.05$
- Latency: 41 שניות ל-28 שניות
- Citation coverage: 67% ל-89%
הסוכן לא חכם יותר. ה-pipeline פשוט יעיל יותר.
שלוש לקחים עבור סוכני ה-production שלכם:
- קבעו תקציב טוקנים קשיח. עצרו את המשימה אם היא חורגת מהמגבלה שלכם.
- שמרו תוצאות ב-cache. אל תסרקו