LiteLLM מול Bifrost: בדקתי את שניהם בסביבת ייצור

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialלפני שבועיים2min read

In this article

LiteLLM מול Bifrost: בדקתי את שניהם בסביבת ייצור (Production)

הרצתי את LiteLLM ו-Bifrost זה לצד זה במשך שבועיים.

השתמשתי באותה תעבורה, אותם מודלים ואותה תשתית. הייתי צריך לבחור gateway אחד עבור הצוות שלי. רציתי נתונים אמיתיים במקום טענות שיווקיות.

הנה הממצאים שלי.

הגדרת הבדיקה

השתמשתי ב-instances מסוג c5.xlarge עם 4 vCPUs ו-8GB RAM. לא השתמשתי ב-instances קטנים לבדיקה. השתמשתי בבקשות משתמשים אמיתיות מפלטפורמת הסוכנים (agent platform) שלנו, בקצב של 200 עד 400 בקשות בשנייה.

כיסוי ספקים (Providers)

LiteLLM תומך ביותר מ-100 ספקים.
Bifrost תומך בכ-23 ספקים.

LiteLLM מטפל ב-OpenAI, Anthropic, Bedrock, Vertex, Groq ו-Deepseek באמצעות קונפיגורציה פשוטה. ב-Bifrost היו חסרים כמה מהספקים הנדרשים לנו. זה הפך אותו לגורם מכריע (dealbreaker) עבורנו.

ביצועים

Bifrost מהיר יותר מבחינת ה-overhead הגולמי של ה-gateway מכיוון שהוא משתמש ב-Go. מדדתי overhead של כ-0.08ms. ה-Python proxy של LiteLLM הוסיף כ-7ms עד 8ms לכל בקשה.

עם זאת, קריאת LLM לוקחת בין 500ms ל-30 שניות. עיכוב של 7ms הוא כמעט בלתי מורגש בהשוואה לזמן התגובה של המודל.

בנוסף, LiteLLM בדיוק שחרר gateway מבוסס Rust. זה מוריד את ה-overhead ל-0.05ms. זה מצמצם את פער הביצועים.

מעקב אחר הוצאות

כאן LiteLLM מנצח. הוא עוקב אחר ההוצאות באופן אוטומטי עבור כל key וכל צוות.

מקבלים תקציבים לכל key.
מקבלים תקציבים לכל צוות.
מקבלים דוחות הוצאות יומיים.

ל-Bifrost יש מגבלות תקציב, אך LiteLLM מספק ייחוס עלויות (cost attribution) מעמיק. כשמריצים 10 מיליון קריאות בחודש, ה-CTO שלכם ישאל בדיוק כמה כל צוות הוציא על כל מודל. LiteLLM נותן לכם את התשובה הזו באופן מיידי.

אסטרטגיות ניתוב (Routing Strategies)

LiteLLM מציע חמש אסטרטגיות ניתוב:

ערבוב פשוט (Simple shuffle)
העמוס הפחות (Least busy)
מבוסס שיהוי (Latency-based)
מבוסס עלות (Cost-based)
מבוסס שימוש (Usage-based)

ל-Bifrost יש ניתוב משוקלל ואדפטיבי, אך חסר לו ניתוב מבוסס עלות. LiteLLM יכול לבחור אוטומטית את המודל הזול ביותר עבור בקשה.

שורה תחתונה

בחרתי ב-LiteLLM.

רשימת הספקים ומעקב ההוצאות היו הסיבות העיקריות. Bifrost הוא הנדסה נהדרת עבור צוותים קטנים שמשתמשים רק ב-OpenAI או Anthropic. אך עבור קנה מידה (scale) ומגוון, LiteLLM הוא פרקטי יותר.

מקור: https://dev.to/paultwist/litellm-vs-bifrost-i-tested-both-in-production-heres-what-actually-matters-c9b

קהילת למידה אופציונלית: https://t.me/GyaanSetuAi

LiteLLM מול Bifrost: בדקתי את שניהם בסביבת ייצור

LiteLLM מול Bifrost: בדקתי את שניהם בסביבת ייצור (Production)

הגדרת הבדיקה

כיסוי ספקים (Providers)

ביצועים

מעקב אחר הוצאות

אסטרטגיות ניתוב (Routing Strategies)

שורה תחתונה

Continue reading

𝗪𝗲 𝗢𝗯𝘀𝗲𝘀𝘀𝗲𝗱 𝗢𝘃𝗲𝗿 𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗟𝗮𝘁𝗲𝗻𝗰𝘆 𝗙𝗼𝗿 𝗔 𝗠𝗼𝗻𝘁𝗵

𝗖𝗼𝘀𝘁 𝗢𝗽𝘁𝗶𝗺𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗟𝗟𝗠 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

איך להשתמש ב-LLMs בלי לשבור את התקציב

מחסנית ה-AI API שהצילה את הסטארט-אפ שלי