LiteLLM vs Bifrost: ನಾನು ಎರಡನ್ನೂ ಪ್ರೊಡಕ್ಷನ್‌ನಲ್ಲಿ ಪರೀಕ್ಷಿಸಿದೆ

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 ವಾರಗಳ ಹಿಂದೆ2min read

In this article

LiteLLM vs Bifrost: ನಾನು ಎರಡನ್ನೂ ಪ್ರೊಡಕ್ಷನ್‌ನಲ್ಲಿ ಪರೀಕ್ಷಿಸಿದೆ

ನಾನು ಎರಡು ವಾರಗಳ ಕಾಲ LiteLLM ಮತ್ತು Bifrost ಅನ್ನು ಪಕ್ಕಪಕ್ಕದಲ್ಲಿ ಚಲಾಯಿಸಿದೆ.

ನಾನು ಒಂದೇ ರೀತಿಯ ಟ್ರಾಫಿಕ್, ಒಂದೇ ಮಾದರಿಗಳು (models) ಮತ್ತು ಒಂದೇ ಇನ್ಫ್ರಾ (infra) ಬಳಸಿದೆ. ನನ್ನ ತಂಡಕ್ಕಾಗಿ ಒಂದು ಗೇಟ್‌ವೇ ಅನ್ನು ಆಯ್ಕೆ ಮಾಡಬೇಕಿತ್ತು. ಮಾರ್ಕೆಟಿಂಗ್ ವಾದಗಳಿಗಿಂತ ನೈಜ ಡೇಟಾವನ್ನು ನಾನು ಬಯಸಿದ್ದೆ.

ನನ್ನ ಸಂಶೋಧನೆಗಳು ಇಲ್ಲಿವೆ.

ಪರೀಕ್ಷೆಯ ಸೆಟಪ್

ನಾನು 4 vCPUs ಮತ್ತು 8GB RAM ಹೊಂದಿರುವ c5.xlarge ಇನ್‌ಸ್ಟೆನ್ಸ್‌ಗಳನ್ನು ಬಳಸಿದೆ. ನಾನು ಸಣ್ಣ ಪರೀಕ್ಷಾ ಇನ್‌ಸ್ಟೆನ್ಸ್‌ಗಳನ್ನು ಬಳಸಲಿಲ್ಲ. ನಮ್ಮ ಏಜೆಂಟ್ ಪ್ಲಾಟ್‌ಫಾರ್ಮ್‌ನಿಂದ ಸೆಕೆಂಡಿಗೆ 200 ರಿಂದ 400 ವಿನಂತಿಗಳ (requests) ವೇಗದಲ್ಲಿ ನೈಜ ಬಳಕೆದಾರರ ವಿನಂತಿಗಳನ್ನು ಬಳಸಿದೆ.

ಪ್ರೊವೈಡರ್ ಕವರೇಜ್

LiteLLM 100 ಕ್ಕೂ ಹೆಚ್ಚು ಪ್ರೊವೈಡರ್‌ಗಳನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ.
Bifrost ಸುಮಾರು 23 ಪ್ರೊವೈಡರ್‌ಗಳನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ.

LiteLLM ಸರಳ ಕಾನ್ಫಿಗರೇಶನ್ ಬಳಸಿ OpenAI, Anthropic, Bedrock, Vertex, Groq, ಮತ್ತು Deepseek ಅನ್ನು ನಿರ್ವಹಿಸುತ್ತದೆ. Bifrost ನಮಗೆ ಅಗತ್ಯವಿದ್ದ ಕೆಲವು ಪ್ರೊವೈಡರ್‌ಗಳನ್ನು ಹೊಂದಿರಲಿಲ್ಲ. ಇದು ನಮಗೆ ದೊಡ್ಡ ಅಡ್ಡಿಯಾಯಿತು (dealbreaker).

ಕಾರ್ಯಕ್ಷಮತೆ

Bifrost Go ಅನ್ನು ಬಳಸುವುದರಿಂದ ರೊ (raw) ಗೇಟ್‌ವೇ ಓವರ್‌ಹೆಡ್‌ನಲ್ಲಿ ವೇಗವಾಗಿದೆ. ನಾನು ಸುಮಾರು 0.08ms ಓವರ್‌ಹೆಡ್ ಅನ್ನು ಅಳೆಯಿದೆ. LiteLLM ನ Python ಪ್ರೊಕ್ಸಿ ಪ್ರತಿ ವಿನಂತಿಗೆ ಸುಮಾರು 7ms ನಿಂದ 8ms ವರೆಗೆ ಸೇರಿಸುತ್ತದೆ.

ಆದಾಗ್ಯೂ, ಒಂದು LLM ಕಾಲ್ 500ms ನಿಂದ 30 ಸೆಕೆಂಡುಗಳವರೆಗೆ ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ. ಮಾಡೆಲ್ ಪ್ರತಿಕ್ರಿಯೆಯ ಸಮಯಕ್ಕೆ ಹೋಲಿಸಿದರೆ 7ms ವಿಳಂಬವು ಬಹುತೇಕ ಗಮನಕ್ಕೆ ಬರುವುದಿಲ್ಲ.

ಅಲ್ಲದೆ, LiteLLM ಇತ್ತೀಚೆಗೆ Rust-ಆಧಾರಿತ ಗೇಟ್‌ವೇ ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ. ಇದು ಓವರ್‌ಹೆಡ್ ಅನ್ನು 0.05ms ಗೆ ಇಳಿಸುತ್ತದೆ. ಇದು ಕಾರ್ಯಕ್ಷಮತೆಯ ಅಂತರವನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ.

ಖರ್ಚಿನ ಟ್ರ್ಯಾಕಿಂಗ್

ಇಲ್ಲೇ LiteLLM ಗೆ ಗೆಲುವು ಸಿಗುತ್ತದೆ. ಇದು ಪ್ರತಿಯೊಂದು ಕೀ (key) ಮತ್ತು ಪ್ರತಿಯೊಂದು ತಂಡದ ಖರ್ಚನ್ನು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಟ್ರ್ಯಾಕ್ ಮಾಡುತ್ತದೆ.

ನೀವು ಪ್ರತಿ ಕೀಗೆ ಬಜೆಟ್ ಹೊಂದಬಹುದು.
ನೀವು ಪ್ರತಿ ತಂಡಕ್ಕೆ ಬಜೆಟ್ ಹೊಂದಬಹುದು.
ನೀವು ದೈನಂದಿನ ಖರ್ಚಿನ ವರದಿಗಳನ್ನು ಪಡೆಯಬಹುದು.

Bifrost ಬಜೆಟ್ ಮಿತಿಗಳನ್ನು ಹೊಂದಿದೆ, ಆದರೆ LiteLLM ಆಳವಾದ ವೆಚ್ಚದ ವಿಶ್ಲೇಷಣೆಯನ್ನು (cost attribution) ಒದಗಿಸುತ್ತದೆ. ನೀವು ತಿಂಗಳಿಗೆ 10 ಮಿಲಿಯನ್ ಕಾಲ್‌ಗಳನ್ನು ನಡೆಸಿದಾಗ, ನಿಮ್ಮ CTO ಪ್ರತಿ ತಂಡವು ಪ್ರತಿ ಮಾಡೆಲ್ ಮೇಲೆ ಎಷ್ಟು ಖರ್ಚು ಮಾಡಿದೆ ಎಂದು ನಿಖರವಾಗಿ ಕೇಳುತ್ತಾರೆ. LiteLLM ನಿಮಗೆ ಆ ಉತ್ತರವನ್ನು ತಕ್ಷಣವೇ ನೀಡುತ್ತದೆ.

ರೂಟಿಂಗ್ ತಂತ್ರಗಳು

LiteLLM ಐದು ರೂಟಿಂಗ್ ತಂತ್ರಗಳನ್ನು ನೀಡುತ್ತದೆ:

Simple shuffle
Least busy
Latency-based
Cost-based
Usage-based

Bifrost ನಲ್ಲಿ ವೈಟೆಡ್ (weighted) ಮತ್ತು ಅಡಾಪ್ಟಿವ್ (adaptive) ರೂಟಿಂಗ್ ಇದೆ, ಆದರೆ ಅದರಲ್ಲಿ ಕಾಸ್ಟ್-ಆಧಾರಿತ ರೂಟಿಂಗ್ ಇಲ್ಲ. LiteLLM ವಿನಂತಿಗಾಗಿ ಅತ್ಯಂತ ಅಗ್ಗದ ಮಾಡೆಲ್ ಅನ್ನು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಆಯ್ಕೆ ಮಾಡಬಲ್ಲದು.

ತೀರ್ಪು

ನಾನು LiteLLM ಅನ್ನು ಆಯ್ಕೆ ಮಾಡಿದೆ.

ಪ್ರೊವೈಡರ್ ಪಟ್ಟಿ ಮತ್ತು ಖರ್ಚಿನ ಟ್ರ್ಯಾಕಿಂಗ್ ಪ್ರಮುಖ ಕಾರಣಗಳಾಗಿದ್ದವು. ಕೇವಲ OpenAI ಅಥವಾ Anthropic ಬಳಸುವ ಸಣ್ಣ ತಂಡಗಳಿಗೆ Bifrost ಉತ್ತಮ ಎಂಜಿನಿಯರಿಂಗ್ ಆಗಿದೆ. ಆದರೆ ದೊಡ್ಡ ಪ್ರಮಾಣದ ಬಳಕೆ (scale) ಮತ್ತು ವೈವಿಧ್ಯತೆಗೆ, LiteLLM ಹೆಚ್ಚು ಪ್ರಾಯೋಗಿಕವಾಗಿದೆ.

Source: https://dev.to/paultwist/litellm-vs-bifrost-i-tested-both-in-production-heres-what-actually-matters-c9b

Optional learning community: https://t.me/GyaanSetuAi

LiteLLM vs Bifrost: ನಾನು ಎರಡನ್ನೂ ಪ್ರೊಡಕ್ಷನ್‌ನಲ್ಲಿ ಪರೀಕ್ಷಿಸಿದೆ

LiteLLM vs Bifrost: ನಾನು ಎರಡನ್ನೂ ಪ್ರೊಡಕ್ಷನ್‌ನಲ್ಲಿ ಪರೀಕ್ಷಿಸಿದೆ

ಪರೀಕ್ಷೆಯ ಸೆಟಪ್

ಪ್ರೊವೈಡರ್ ಕವರೇಜ್

ಕಾರ್ಯಕ್ಷಮತೆ

ಖರ್ಚಿನ ಟ್ರ್ಯಾಕಿಂಗ್

ರೂಟಿಂಗ್ ತಂತ್ರಗಳು

ತೀರ್ಪು

Continue reading

𝗪𝗲 𝗢𝗯𝘀𝗲𝘀𝘀𝗲𝗱 𝗢𝘃𝗲𝗿 𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗟𝗮𝘁𝗲𝗻𝗰𝘆 𝗙𝗼𝗿 𝗔 𝗠𝗼𝗻𝘁𝗵

LLM ವ್ಯವಸ್ಥೆಗಳಿಗಾಗಿ ವೆಚ್ಚದ ಸುಧಾರಣೆ

How To Use LLMs Without Breaking Your Budget

ನನ್ನ ಸ್ಟಾರ್ಟ್‌ಅಪ್ ಅನ್ನು ಉಳಿಸಿದ AI API ಸ್ಟ್ಯಾಕ್