LiteLLM vs Bifrost: ನಾನು ಎರಡನ್ನೂ ಪ್ರೊಡಕ್ಷನ್‌ನಲ್ಲಿ ಪರೀಕ್ಷಿಸಿದೆ

ನಾನು ಎರಡು ವಾರಗಳ ಕಾಲ LiteLLM ಮತ್ತು Bifrost ಅನ್ನು ಪಕ್ಕಪಕ್ಕದಲ್ಲಿ ಚಲಾಯಿಸಿದೆ.

ನಾನು ಒಂದೇ ರೀತಿಯ ಟ್ರಾಫಿಕ್, ಒಂದೇ ಮಾದರಿಗಳು (models) ಮತ್ತು ಒಂದೇ ಇನ್ಫ್ರಾ (infra) ಬಳಸಿದೆ. ನನ್ನ ತಂಡಕ್ಕಾಗಿ ಒಂದು ಗೇಟ್‌ವೇ ಅನ್ನು ಆಯ್ಕೆ ಮಾಡಬೇಕಿತ್ತು. ಮಾರ್ಕೆಟಿಂಗ್ ವಾದಗಳಿಗಿಂತ ನೈಜ ಡೇಟಾವನ್ನು ನಾನು ಬಯಸಿದ್ದೆ.

ನನ್ನ ಸಂಶೋಧನೆಗಳು ಇಲ್ಲಿವೆ.

ಪರೀಕ್ಷೆಯ ಸೆಟಪ್

ನಾನು 4 vCPUs ಮತ್ತು 8GB RAM ಹೊಂದಿರುವ c5.xlarge ಇನ್‌ಸ್ಟೆನ್ಸ್‌ಗಳನ್ನು ಬಳಸಿದೆ. ನಾನು ಸಣ್ಣ ಪರೀಕ್ಷಾ ಇನ್‌ಸ್ಟೆನ್ಸ್‌ಗಳನ್ನು ಬಳಸಲಿಲ್ಲ. ನಮ್ಮ ಏಜೆಂಟ್ ಪ್ಲಾಟ್‌ಫಾರ್ಮ್‌ನಿಂದ ಸೆಕೆಂಡಿಗೆ 200 ರಿಂದ 400 ವಿನಂತಿಗಳ (requests) ವೇಗದಲ್ಲಿ ನೈಜ ಬಳಕೆದಾರರ ವಿನಂತಿಗಳನ್ನು ಬಳಸಿದೆ.

ಪ್ರೊವೈಡರ್ ಕವರೇಜ್

  • LiteLLM 100 ಕ್ಕೂ ಹೆಚ್ಚು ಪ್ರೊವೈಡರ್‌ಗಳನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ.
  • Bifrost ಸುಮಾರು 23 ಪ್ರೊವೈಡರ್‌ಗಳನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ.

LiteLLM ಸರಳ ಕಾನ್ಫಿಗರೇಶನ್ ಬಳಸಿ OpenAI, Anthropic, Bedrock, Vertex, Groq, ಮತ್ತು Deepseek ಅನ್ನು ನಿರ್ವಹಿಸುತ್ತದೆ. Bifrost ನಮಗೆ ಅಗತ್ಯವಿದ್ದ ಕೆಲವು ಪ್ರೊವೈಡರ್‌ಗಳನ್ನು ಹೊಂದಿರಲಿಲ್ಲ. ಇದು ನಮಗೆ ದೊಡ್ಡ ಅಡ್ಡಿಯಾಯಿತು (dealbreaker).

ಕಾರ್ಯಕ್ಷಮತೆ

Bifrost Go ಅನ್ನು ಬಳಸುವುದರಿಂದ ರೊ (raw) ಗೇಟ್‌ವೇ ಓವರ್‌ಹೆಡ್‌ನಲ್ಲಿ ವೇಗವಾಗಿದೆ. ನಾನು ಸುಮಾರು 0.08ms ಓವರ್‌ಹೆಡ್ ಅನ್ನು ಅಳೆಯಿದೆ. LiteLLM ನ Python ಪ್ರೊಕ್ಸಿ ಪ್ರತಿ ವಿನಂತಿಗೆ ಸುಮಾರು 7ms ನಿಂದ 8ms ವರೆಗೆ ಸೇರಿಸುತ್ತದೆ.

ಆದಾಗ್ಯೂ, ಒಂದು LLM ಕಾಲ್ 500ms ನಿಂದ 30 ಸೆಕೆಂಡುಗಳವರೆಗೆ ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ. ಮಾಡೆಲ್ ಪ್ರತಿಕ್ರಿಯೆಯ ಸಮಯಕ್ಕೆ ಹೋಲಿಸಿದರೆ 7ms ವಿಳಂಬವು ಬಹುತೇಕ ಗಮನಕ್ಕೆ ಬರುವುದಿಲ್ಲ.

ಅಲ್ಲದೆ, LiteLLM ಇತ್ತೀಚೆಗೆ Rust-ಆಧಾರಿತ ಗೇಟ್‌ವೇ ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ. ಇದು ಓವರ್‌ಹೆಡ್ ಅನ್ನು 0.05ms ಗೆ ಇಳಿಸುತ್ತದೆ. ಇದು ಕಾರ್ಯಕ್ಷಮತೆಯ ಅಂತರವನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ.

ಖರ್ಚಿನ ಟ್ರ್ಯಾಕಿಂಗ್

ಇಲ್ಲೇ LiteLLM ಗೆ ಗೆಲುವು ಸಿಗುತ್ತದೆ. ಇದು ಪ್ರತಿಯೊಂದು ಕೀ (key) ಮತ್ತು ಪ್ರತಿಯೊಂದು ತಂಡದ ಖರ್ಚನ್ನು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಟ್ರ್ಯಾಕ್ ಮಾಡುತ್ತದೆ.

  • ನೀವು ಪ್ರತಿ ಕೀಗೆ ಬಜೆಟ್ ಹೊಂದಬಹುದು.
  • ನೀವು ಪ್ರತಿ ತಂಡಕ್ಕೆ ಬಜೆಟ್ ಹೊಂದಬಹುದು.
  • ನೀವು ದೈನಂದಿನ ಖರ್ಚಿನ ವರದಿಗಳನ್ನು ಪಡೆಯಬಹುದು.

Bifrost ಬಜೆಟ್ ಮಿತಿಗಳನ್ನು ಹೊಂದಿದೆ, ಆದರೆ LiteLLM ಆಳವಾದ ವೆಚ್ಚದ ವಿಶ್ಲೇಷಣೆಯನ್ನು (cost attribution) ಒದಗಿಸುತ್ತದೆ. ನೀವು ತಿಂಗಳಿಗೆ 10 ಮಿಲಿಯನ್ ಕಾಲ್‌ಗಳನ್ನು ನಡೆಸಿದಾಗ, ನಿಮ್ಮ CTO ಪ್ರತಿ ತಂಡವು ಪ್ರತಿ ಮಾಡೆಲ್ ಮೇಲೆ ಎಷ್ಟು ಖರ್ಚು ಮಾಡಿದೆ ಎಂದು ನಿಖರವಾಗಿ ಕೇಳುತ್ತಾರೆ. LiteLLM ನಿಮಗೆ ಆ ಉತ್ತರವನ್ನು ತಕ್ಷಣವೇ ನೀಡುತ್ತದೆ.

ರೂಟಿಂಗ್ ತಂತ್ರಗಳು

LiteLLM ಐದು ರೂಟಿಂಗ್ ತಂತ್ರಗಳನ್ನು ನೀಡುತ್ತದೆ:

  • Simple shuffle
  • Least busy
  • Latency-based
  • Cost-based
  • Usage-based

Bifrost ನಲ್ಲಿ ವೈಟೆಡ್ (weighted) ಮತ್ತು ಅಡಾಪ್ಟಿವ್ (adaptive) ರೂಟಿಂಗ್ ಇದೆ, ಆದರೆ ಅದರಲ್ಲಿ ಕಾಸ್ಟ್-ಆಧಾರಿತ ರೂಟಿಂಗ್ ಇಲ್ಲ. LiteLLM ವಿನಂತಿಗಾಗಿ ಅತ್ಯಂತ ಅಗ್ಗದ ಮಾಡೆಲ್ ಅನ್ನು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಆಯ್ಕೆ ಮಾಡಬಲ್ಲದು.

ತೀರ್ಪು

ನಾನು LiteLLM ಅನ್ನು ಆಯ್ಕೆ ಮಾಡಿದೆ.

ಪ್ರೊವೈಡರ್ ಪಟ್ಟಿ ಮತ್ತು ಖರ್ಚಿನ ಟ್ರ್ಯಾಕಿಂಗ್ ಪ್ರಮುಖ ಕಾರಣಗಳಾಗಿದ್ದವು. ಕೇವಲ OpenAI ಅಥವಾ Anthropic ಬಳಸುವ ಸಣ್ಣ ತಂಡಗಳಿಗೆ Bifrost ಉತ್ತಮ ಎಂಜಿನಿಯರಿಂಗ್ ಆಗಿದೆ. ಆದರೆ ದೊಡ್ಡ ಪ್ರಮಾಣದ ಬಳಕೆ (scale) ಮತ್ತು ವೈವಿಧ್ಯತೆಗೆ, LiteLLM ಹೆಚ್ಚು ಪ್ರಾಯೋಗಿಕವಾಗಿದೆ.

Source: https://dev.to/paultwist/litellm-vs-bifrost-i-tested-both-in-production-heres-what-actually-matters-c9b

Optional learning community: https://t.me/GyaanSetuAi