LiteLLM מול Bifrost: בדקתי את שניהם בסביבת ייצור (Production)
הרצתי את LiteLLM ו-Bifrost זה לצד זה במשך שבועיים.
השתמשתי באותה תעבורה, אותם מודלים ואותה תשתית. הייתי צריך לבחור gateway אחד עבור הצוות שלי. רציתי נתונים אמיתיים במקום טענות שיווקיות.
הנה הממצאים שלי.
הגדרת הבדיקה
השתמשתי ב-instances מסוג c5.xlarge עם 4 vCPUs ו-8GB RAM. לא השתמשתי ב-instances קטנים לבדיקה. השתמשתי בבקשות משתמשים אמיתיות מפלטפורמת הסוכנים (agent platform) שלנו, בקצב של 200 עד 400 בקשות בשנייה.
כיסוי ספקים (Providers)
- LiteLLM תומך ביותר מ-100 ספקים.
- Bifrost תומך בכ-23 ספקים.
LiteLLM מטפל ב-OpenAI, Anthropic, Bedrock, Vertex, Groq ו-Deepseek באמצעות קונפיגורציה פשוטה. ב-Bifrost היו חסרים כמה מהספקים הנדרשים לנו. זה הפך אותו לגורם מכריע (dealbreaker) עבורנו.
ביצועים
Bifrost מהיר יותר מבחינת ה-overhead הגולמי של ה-gateway מכיוון שהוא משתמש ב-Go. מדדתי overhead של כ-0.08ms. ה-Python proxy של LiteLLM הוסיף כ-7ms עד 8ms לכל בקשה.
עם זאת, קריאת LLM לוקחת בין 500ms ל-30 שניות. עיכוב של 7ms הוא כמעט בלתי מורגש בהשוואה לזמן התגובה של המודל.
בנוסף, LiteLLM בדיוק שחרר gateway מבוסס Rust. זה מוריד את ה-overhead ל-0.05ms. זה מצמצם את פער הביצועים.
מעקב אחר הוצאות
כאן LiteLLM מנצח. הוא עוקב אחר ההוצאות באופן אוטומטי עבור כל key וכל צוות.
- מקבלים תקציבים לכל key.
- מקבלים תקציבים לכל צוות.
- מקבלים דוחות הוצאות יומיים.
ל-Bifrost יש מגבלות תקציב, אך LiteLLM מספק ייחוס עלויות (cost attribution) מעמיק. כשמריצים 10 מיליון קריאות בחודש, ה-CTO שלכם ישאל בדיוק כמה כל צוות הוציא על כל מודל. LiteLLM נותן לכם את התשובה הזו באופן מיידי.
אסטרטגיות ניתוב (Routing Strategies)
LiteLLM מציע חמש אסטרטגיות ניתוב:
- ערבוב פשוט (Simple shuffle)
- העמוס הפחות (Least busy)
- מבוסס שיהוי (Latency-based)
- מבוסס עלות (Cost-based)
- מבוסס שימוש (Usage-based)
ל-Bifrost יש ניתוב משוקלל ואדפטיבי, אך חסר לו ניתוב מבוסס עלות. LiteLLM יכול לבחור אוטומטית את המודל הזול ביותר עבור בקשה.
שורה תחתונה
בחרתי ב-LiteLLM.
רשימת הספקים ומעקב ההוצאות היו הסיבות העיקריות. Bifrost הוא הנדסה נהדרת עבור צוותים קטנים שמשתמשים רק ב-OpenAI או Anthropic. אך עבור קנה מידה (scale) ומגוון, LiteLLM הוא פרקטי יותר.
קהילת למידה אופציונלית: https://t.me/GyaanSetuAi
