LiteLLM vs Bifrost: Saya Menguji Keduanya di Produksi

Saya menjalankan LiteLLM dan Bifrost secara berdampingan selama dua minggu.

Saya menggunakan trafik yang sama, model yang sama, dan infrastruktur yang sama. Saya perlu memilih satu gateway untuk tim saya. Saya menginginkan data nyata, bukan sekadar klaim pemasaran.

Berikut adalah temuan saya.

Pengaturan Pengujian

Saya menggunakan instance c5.xlarge dengan 4 vCPU dan RAM 8GB. Saya tidak menggunakan instance pengujian kecil. Saya menggunakan permintaan pengguna asli dari platform agen kami pada kecepatan 200 hingga 400 permintaan per detik.

Cakupan Provider

  • LiteLLM mendukung lebih dari 100 provider.
  • Bifrost mendukung sekitar 23 provider.

LiteLLM menangani OpenAI, Anthropic, Bedrock, Vertex, Groq, dan Deepseek menggunakan konfigurasi yang sederhana. Bifrost kekurangan beberapa provider yang kami butuhkan. Hal ini menjadi faktor penentu bagi kami.

Performa

Bifrost lebih cepat dalam hal overhead gateway mentah karena menggunakan Go. Saya mengukur overhead sekitar 0,08ms. Proxy Python milik LiteLLM menambah sekitar 7ms hingga 8ms per permintaan.

Namun, panggilan LLM memakan waktu 500ms hingga 30 detik. Penundaan 7ms hampir tidak terlihat dibandingkan dengan waktu respons model.

Selain itu, LiteLLM baru saja merilis gateway berbasis Rust. Ini menurunkan overhead menjadi 0,05ms. Hal ini memperkecil celah performa tersebut.

Pelacakan Pengeluaran

Di sinilah LiteLLM unggul. Ia melacak pengeluaran secara otomatis di setiap kunci (key) dan setiap tim.

  • Anda mendapatkan anggaran per-key.
  • Anda mendapatkan anggaran per-tim.
  • Anda mendapatkan laporan pengeluaran harian.

Bifrost memiliki batasan anggaran, tetapi LiteLLM menyediakan atribusi biaya yang mendalam. Saat Anda menjalankan 10 juta panggilan sebulan, CTO Anda akan bertanya persis berapa banyak yang dihabiskan setiap tim untuk setiap model. LiteLLM memberikan jawaban tersebut secara instan.

Strategi Routing

LiteLLM menawarkan lima strategi routing:

  • Simple shuffle
  • Least busy
  • Latency-based
  • Cost-based
  • Usage-based

Bifrost memiliki routing berbobot (weighted) dan adaptif, tetapi tidak memiliki routing berbasis biaya. LiteLLM dapat secara otomatis memilih model termurah untuk sebuah permintaan.

Putusan

Saya memilih LiteLLM.

Daftar provider dan pelacakan pengeluaran adalah alasan utamanya. Bifrost adalah rekayasa yang hebat untuk tim kecil yang hanya menggunakan OpenAI atau Anthropic. Namun untuk skala dan variasi, LiteLLM lebih praktis.

Sumber: https://dev.to/paultwist/litellm-vs-bifrost-i-tested-both-in-production-heres-what-actually-matters-c9b

Komunitas pembelajaran opsional: https://t.me/GyaanSetuAi