LiteLLM vs Bifrost: నేను రెండింటినీ ప్రొడక్షన్లో పరీక్షించాను
నేను రెండు వారాల పాటు LiteLLM మరియు Bifrostలను పక్కపక్కనే నడపడం జరిగింది.
నేను ఒకే రకమైన ట్రాఫిక్, ఒకే రకమైన మోడల్స్ మరియు ఒకే రకమైన ఇన్ఫ్రాస్ట్రక్చర్ను ఉపయోగించాను. నా టీమ్ కోసం ఒక గేట్వేని ఎంచుకోవాల్సి ఉంది. మార్కెటింగ్ క్లెయిమ్ల కంటే నిజమైన డేటాను నేను కోరుకున్నాను.
నా పరిశీలనలు ఇక్కడ ఉన్నాయి.
The Test Setup నేను 4 vCPUs మరియు 8GB RAM కలిగిన c5.xlarge ఇన్స్టాన్స్లను ఉపయోగించాను. నేను చిన్న టెస్ట్ ఇన్స్టాన్స్లను ఉపయోగించలేదు. మా ఏజెంట్ ప్లాట్ఫారమ్ నుండి సెకనుకు 200 నుండి 400 రిక్వెస్ట్ల వేగంతో వచ్చే నిజమైన యూజర్ రిక్వెస్ట్లను ఉపయోగించాను.
Provider Coverage
- LiteLLM 100 కంటే ఎక్కువ ప్రొవైడర్లను సపోర్ట్ చేస్తుంది.
- Bifrost సుమారు 23 ప్రొవైడర్లను సపోర్ట్ చేస్తుంది.
LiteLLM ఒక సింపుల్ కాన్ఫిగరేషన్తో OpenAI, Anthropic, Bedrock, Vertex, Groq మరియు Deepseekలను హ్యాండిల్ చేస్తుంది. Bifrostలో మాకు అవసరమైన కొన్ని ప్రొవైడర్లు లేవు. ఇది మాకు ఒక పెద్ద లోటుగా (dealbreaker) మారింది.
Performance Bifrost Go భాషను ఉపయోగిస్తుంది కాబట్టి, రా (raw) గేట్వే ఓవర్హెడ్లో ఇది వేగంగా ఉంటుంది. నేను సుమారు 0.08ms ఓవర్హెడ్ను కొలవగలిగాను. LiteLLM యొక్క Python ప్రాక్సీ ప్రతి రిక్వెస్ట్కు సుమారు 7ms నుండి 8ms వరకు అదనంగా తీసుకుంటుంది.
అయితే, ఒక LLM కాల్ 500ms నుండి 30 సెకన్ల వరకు సమయం తీసుకుంటుంది. మోడల్ రెస్పాన్స్ టైమ్తో పోలిస్తే 7ms ఆలస్యం అనేది దాదాపు కనిపించదు కూడా.
అంతేకాకుండా, LiteLLM ఇప్పుడే Rust-ఆధారిత గేట్వేను విడుదల చేసింది. ఇది ఓవర్హెడ్ను 0.05ms కి తగ్గిస్తుంది. ఇది పెర్ఫార్మెన్స్ గ్యాప్ను తగ్గిస్తుంది.
Spend Tracking ఇక్కడే LiteLLM విజయం సాధించింది. ఇది ప్రతి కీ మరియు ప్రతి టీమ్ యొక్క ఖర్చును ఆటోమేటిక్గా ట్రాక్ చేస్తుంది.
- మీకు ప్రతి కీకి (per-key) బడ్జెట్లు లభిస్తాయి.
- మీకు ప్రతి టీమ్కు (per-team) బడ్జెట్లు లభిస్తాయి.
- మీకు రోజువారీ ఖర్చు నివేదికలు (daily spend reports) లభిస్తాయి.
Bifrostలో బడ్జెట్ పరిమితులు ఉన్నాయి, కానీ LiteLLM లోతైన ఖర్చు కేటాయింపును (cost attribution) అందిస్తుంది. మీరు నెలకు 10 మిలియన్ కాల్స్ చేసినప్పుడు, ప్రతి టీమ్ ప్రతి మోడల్పై ఎంత ఖర్చు చేసిందో మీ CTO ఖచ్చితంగా అడుగుతారు. LiteLLM ఆ సమాధానాన్ని మీకు వెంటనే అందిస్తుంది.
Routing Strategies LiteLLM ఐదు రకాల రూటింగ్ స్ట్రాటజీలను అందిస్తుంది:
- Simple shuffle
- Least busy
- Latency-based
- Cost-based
- Usage-based
Bifrostలో వెయిటెడ్ (weighted) మరియు అడాప్టివ్ (adaptive) రూటింగ్ ఉన్నాయి, కానీ ఇందులో కాస్ట్-బేస్డ్ (cost-based) రూటింగ్ లేదు. LiteLLM ఒక రిక్వెస్ట్ కోసం ఆటోమేటిక్గా అత్యంత తక్కువ ఖర్చుతో కూడిన మోడల్ను ఎంచుకోగలదు.
Verdict నేను LiteLLMని ఎంచుకున్నాను.
ప్రొవైడర్ జాబితా మరియు స్పెండ్ ట్రాకింగ్ ప్రధాన కారణాలు. కేవలం OpenAI లేదా Anthropic మాత్రమే ఉపయోగించే చిన్న టీమ్లకు Bifrost అద్భుతమైన ఇంజనీరింగ్. కానీ స్కేల్ మరియు వైవిధ్యం కోసం, LiteLLM మరింత ఆచరణాత్మకమైనది.
Optional learning community: https://t.me/GyaanSetuAi
