మేము ఒక నెల పాటు గేట్వే లేటెన్సీపై దృష్టి సారించాము
నేను ఒక నెల పాటు LLM గేట్వే ఓవర్హెడ్ను (overhead) కొలవడానికి గడిపాను. నేను ప్రాక్సీ లేటెన్సీని మైక్రోసెకన్ల వరకు ట్రాక్ చేశాను. సెకనుకు 500, 1000 మరియు 5000 రిక్వెస్ట్లతో లోడ్ టెస్ట్లను నిర్వహించాను.
అప్పుడు ఒక సహోద్యోగి ఇలా అడిగారు: "మొత్తం రిక్వెస్ట్ సమయంలో గేట్వే వాటా ఎంత శాతం?"
నేను ఆ క్వెరీని రన్ చేశాను. సమాధానం 0.3%.
ప్రస్తుతం LLM API కాల్స్ లేటెన్సీ పరంగా ఎంత సమయం తీసుకుంటున్నాయో ఇక్కడ చూడండి:
• GPT-4o: 850ms TTFT | మొత్తం 2-8s • Claude Sonnet 4: 900ms TTFT | మొత్తం 3-15s • Claude Fable 5: 147s TTFT | మొత్తం 155s • GPT-4.1: 1,100ms TTFT | మొత్తం 3-12s • Gemini 2.5 Flash: 500ms TTFT | మొత్తం 1-5s
ఇప్పుడు గేట్వేలు ఎంత సమయాన్ని అదనంగా తీసుకుంటున్నాయో చూడండి:
• Direct API call: 0ms • Python proxy: 8-40ms • Go/Rust proxy: 1-11ms
3,000ms నుండి 155,000ms సమయం తీసుకునే కాల్కు మీరు 8ms లేదా 1ms అదనంగా జోడిస్తారా అనేదే ఇక్కడ అసలు చర్చ. ఇది శాటిలైట్ నుండి ఫైల్ డౌన్లోడ్ అవుతున్నప్పుడు, వేగవంతమైన USB కేబుల్ గురించి వాదించడం లాంటిది.
కొన్ని బెంచ్మార్క్లు "50x వేగవంతమైన లేటెన్సీ" అని పేర్కొంటున్నాయి. ఈ పరీక్షలు తరచుగా పరిమిత వనరులు ఉన్న చిన్న మెషీన్లపై జరుగుతాయి. ప్రొడక్షన్లో, మీరు హారిజాంటల్ స్కేలింగ్ (scale horizontally) చేస్తారు. మీరు మల్టిపుల్ ఇన్స్టెన్స్లను ఉపయోగించినప్పుడు, లేటెన్సీ తగ్గుతుంది.
అసలైన LLM కాల్ గేట్వే కంటే 50x నుండి 1000x ఎక్కువ సమయం తీసుకుంటుంది. మీ లేటెన్సీ మోడల్ వల్ల వస్తుంది, ప్రాక్సీ వల్ల కాదు.
మాకు నిజంగా ఫలితాన్ని ఇచ్చిన అంశాలు ఇవే:
- మోడల్ ఎంపిక (Model Choice): సాధారణ పనుల కోసం GPT-4o నుండి Gemini 2.5 Flashకి మారడం వల్ల లేటెన్సీ 60% తగ్గింది.
- లేటెన్సీ ఆధారిత రూటింగ్ (Latency-Based Routing): అందుబాటులో ఉన్న అత్యంత వేగవంతమైన మోడల్కు రిక్వెస్ట్లను రూట్ చేయడం వల్ల మా P99 లేటెన్సీ 40% తగ్గింది.
- క్యాషింగ్ (Caching): ఇది మా వర్క్ఫ్లోలలో అనవసరమైన కాల్స్ను 30% తగ్గించింది.
- ప్రాంప్ట్ పొడవు (Prompt Length): సిస్టమ్ ప్రాంప్ట్లను 2000 టోకెన్ల నుండి 800 టోకెన్లకు తగ్గించడం వల్ల స్పందనలు 35% వేగంగా వచ్చాయి.
- ఫెయిల్ఓవర్ (Failover): అవుట్లేజీల సమయంలో ఇతర ప్రొవైడర్లకు ఆటోమేటిక్గా మారడం వల్ల మీ సర్వీస్ నిరంతరాయంగా కొనసాగుతుంది.
మీరు LLM గేట్వేని ఎంచుకుంటే, దానికి బదులుగా ఈ అంశాలపై దృష్టి పెట్టండి:
- ప్రొవైడర్ కవరేజ్: ఇది మీకు కావాల్సిన మోడల్లకు సపోర్ట్ చేస్తుందా?
- రూటింగ్ మరియు ఫెయిల్ఓవర్: ఇది అవుట్లేజీలను హ్యాండిల్ చేయగలదా?
- కాస్ట్ ట్రాకింగ్: ఏ యూజర్లు ఎన్ని టోకెన్లను వాడుతున్నారో మీరు చూడగలరా?
- ఎకోసిస్టమ్: సమస్యలు ఎదురైనప్పుడు సహాయం చేయడానికి కమ్యూనిటీ ఉందా?
- ఎక్స్టెన్సిబిలిటీ: మీరు సులభంగా కస్టమ్ లాజిక్ను జోడించగలరా?
మైక్రోసెకన్లలో గేట్వే ఓవర్హెడ్ గురించి చెప్పడం అనేది కేవలం మార్కెటింగ్ హెడ్లైన్ మాత్రమే. అది ప్రొడక్షన్ సమస్య కాదు. 1ms మాత్రమే జోడించి, నాకు ఏమీ తెలియకుండా వదిలేసే గేట్వే కంటే, 40ms అదనంగా తీసుకున్నా నా ఖర్చులను ట్రాక్ చేసే గేట్వేనే నాకు కావాలి.
మీ LLM ఇన్ఫ్రాస్ట్రక్చర్ పరంగా ఎదుర్కొంటున్న అతిపెద్ద సమస్య ఏమిటి?
ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi