LiteLLM در مقابل Bifrost: هر دو را در محیط عملیاتی تست کردم

من LiteLLM و Bifrost را به مدت دو هفته در کنار هم اجرا کردم.

من از ترافیک، مدل‌ها و زیرساخت یکسانی استفاده کردم. لازم بود یکی از این گیت‌وی‌ها را برای تیمم انتخاب کنم. به جای ادعاهای بازاریابی، داده‌های واقعی می‌خواستم.

یافته‌های من در اینجا آمده است.

تنظیمات تست

من از نمونه‌های (instances) c5.xlarge با ۴ vCPU و ۸ گیگابایت رم استفاده کردم. از نمونه‌های تست کوچک استفاده نکردم. من از درخواست‌های واقعی کاربران پلتفرم عامل (agent platform) خودمان با نرخ ۲۰۰ تا ۴۰۰ درخواست در ثانیه استفاده کردم.

پوشش ارائه‌دهندگان

  • LiteLLM از بیش از ۱۰۰ ارائه‌دهنده پشتیبانی می‌کند.
  • Bifrost از حدود ۲۳ ارائه‌دهنده پشتیبانی می‌کند.

LiteLLM با یک پیکربندی ساده، OpenAI، Anthropic، Bedrock، Vertex، Groq و Deepseek را مدیریت می‌کند. Bifrost فاقد برخی از ارائه‌دهندگان مورد نیاز ما بود. این موضوع باعث شد که آن را رد کنیم.

عملکرد

Bifrost در زمینه سربار خام گیت‌وی سریع‌تر است زیرا از Go استفاده می‌کند. من سرباری در حدود ۰.۰۸ میلی‌ثانیه را اندازه‌گیری کردم. پروکسی پایتونِ LiteLLM حدود ۷ تا ۸ میلی‌ثانیه به هر درخواست اضافه می‌کرد.

با این حال، یک فراخوانی LLM بین ۵۰۰ میلی‌ثانیه تا ۳۰ ثانیه طول می‌کشد. یک تأخیر ۷ میلی‌ثانیه‌ای در مقایسه با زمان پاسخ‌دهی مدل، تقریباً نامرئی است.

همچنین، LiteLLM به‌تازگی یک گیت‌وی مبتنی بر Rust منتشر کرده است. این کار سربار را به ۰.۰۵ میلی‌ثانیه کاهش می‌دهد و شکاف عملکردی را از بین می‌برد.

ردیابی هزینه‌ها

اینجاست که LiteLLM پیروز می‌شود. این ابزار هزینه‌ها را به‌طور خودکار برای هر کلید (key) و هر تیم ردیابی می‌کند.

  • شما بودجه‌های اختصاصی برای هر کلید دارید.
  • شما بودجه‌های اختصاصی برای هر تیم دارید.
  • شما گزارش‌های هزینه روزانه دریافت می‌کنید.

Bifrost محدودیت‌های بودجه دارد، اما LiteLLM تخصیص دقیق هزینه‌ها را فراهم می‌کند. وقتی در ماه ۱۰ میلیون فراخوانی انجام می‌دهید، مدیر فنی (CTO) شما دقیقاً خواهد پرسید که هر تیم چقدر برای هر مدل هزینه کرده است. LiteLLM بلافاصله این پاسخ را به شما می‌دهد.

استراتژی‌های مسیریابی

LiteLLM پنج استراتژی مسیریابی ارائه می‌دهد:

  • جابه‌جایی ساده (Simple shuffle)
  • کم‌مشغله‌ترین (Least busy)
  • مبتنی بر تأخیر (Latency-based)
  • مبتنی بر هزینه (Cost-based)
  • مبتنی بر میزان استفاده (Usage-based)

Bifrost دارای مسیریابی وزنی و تطبیقی است، اما فاقد مسیریابی مبتنی بر هزینه است. LiteLLM می‌تواند به‌طور خودکار ارزان‌ترین مدل را برای یک درخواست انتخاب کند.

حکم نهایی

من LiteLLM را انتخاب کردم.

لیست ارائه‌دهندگان و ردیابی هزینه‌ها دلایل اصلی بودند. Bifrost از نظر مهندسی برای تیم‌های کوچکی که فقط از OpenAI یا Anthropic استفاده می‌کنند، عالی است. اما برای مقیاس‌پذیری و تنوع، LiteLLM کاربردی‌تر است.

Source: https://dev.to/paultwist/litellm-vs-bifrost-i-tested-both-in-production-heres-what-actually-matters-c9b

Optional learning community: https://t.me/GyaanSetuAi