𝗪𝗲 𝗢𝗯𝘀𝗲𝘀𝘀𝗲𝗱 𝗢𝘃𝗲𝗿 𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗟𝗮𝘁𝗲𝗻𝗰𝘆 𝗙𝗼𝗿 𝗔 𝗠𝗼𝗻𝘁𝗵

📅3 hours ago⏱2 min read

మేము ఒక నెల పాటు గేట్‌వే లేటెన్సీపై దృష్టి సారించాము

నేను ఒక నెల పాటు LLM గేట్‌వే ఓవర్‌హెడ్‌ను (overhead) కొలవడానికి గడిపాను. నేను ప్రాక్సీ లేటెన్సీని మైక్రోసెకన్ల వరకు ట్రాక్ చేశాను. సెకనుకు 500, 1000 మరియు 5000 రిక్వెస్ట్‌లతో లోడ్ టెస్ట్‌లను నిర్వహించాను.

అప్పుడు ఒక సహోద్యోగి ఇలా అడిగారు: "మొత్తం రిక్వెస్ట్ సమయంలో గేట్‌వే వాటా ఎంత శాతం?"

నేను ఆ క్వెరీని రన్ చేశాను. సమాధానం 0.3%.

ప్రస్తుతం LLM API కాల్స్ లేటెన్సీ పరంగా ఎంత సమయం తీసుకుంటున్నాయో ఇక్కడ చూడండి:

ఇప్పుడు గేట్‌వేలు ఎంత సమయాన్ని అదనంగా తీసుకుంటున్నాయో చూడండి:

• Direct API call: 0ms • Python proxy: 8-40ms • Go/Rust proxy: 1-11ms

3,000ms నుండి 155,000ms సమయం తీసుకునే కాల్‌కు మీరు 8ms లేదా 1ms అదనంగా జోడిస్తారా అనేదే ఇక్కడ అసలు చర్చ. ఇది శాటిలైట్ నుండి ఫైల్ డౌన్‌లోడ్ అవుతున్నప్పుడు, వేగవంతమైన USB కేబుల్ గురించి వాదించడం లాంటిది.

కొన్ని బెంచ్‌మార్క్‌లు "50x వేగవంతమైన లేటెన్సీ" అని పేర్కొంటున్నాయి. ఈ పరీక్షలు తరచుగా పరిమిత వనరులు ఉన్న చిన్న మెషీన్లపై జరుగుతాయి. ప్రొడక్షన్‌లో, మీరు హారిజాంటల్ స్కేలింగ్ (scale horizontally) చేస్తారు. మీరు మల్టిపుల్ ఇన్‌స్టెన్స్‌లను ఉపయోగించినప్పుడు, లేటెన్సీ తగ్గుతుంది.

అసలైన LLM కాల్ గేట్‌వే కంటే 50x నుండి 1000x ఎక్కువ సమయం తీసుకుంటుంది. మీ లేటెన్సీ మోడల్ వల్ల వస్తుంది, ప్రాక్సీ వల్ల కాదు.

మాకు నిజంగా ఫలితాన్ని ఇచ్చిన అంశాలు ఇవే:

మోడల్ ఎంపిక (Model Choice): సాధారణ పనుల కోసం GPT-4o నుండి Gemini 2.5 Flashకి మారడం వల్ల లేటెన్సీ 60% తగ్గింది.
లేటెన్సీ ఆధారిత రూటింగ్ (Latency-Based Routing): అందుబాటులో ఉన్న అత్యంత వేగవంతమైన మోడల్‌కు రిక్వెస్ట్‌లను రూట్ చేయడం వల్ల మా P99 లేటెన్సీ 40% తగ్గింది.
క్యాషింగ్ (Caching): ఇది మా వర్క్‌ఫ్లోలలో అనవసరమైన కాల్స్‌ను 30% తగ్గించింది.
ప్రాంప్ట్ పొడవు (Prompt Length): సిస్టమ్ ప్రాంప్ట్‌లను 2000 టోకెన్ల నుండి 800 టోకెన్లకు తగ్గించడం వల్ల స్పందనలు 35% వేగంగా వచ్చాయి.
ఫెయిల్‌ఓవర్ (Failover): అవుట్‌లేజీల సమయంలో ఇతర ప్రొవైడర్‌లకు ఆటోమేటిక్‌గా మారడం వల్ల మీ సర్వీస్ నిరంతరాయంగా కొనసాగుతుంది.

మీరు LLM గేట్‌వేని ఎంచుకుంటే, దానికి బదులుగా ఈ అంశాలపై దృష్టి పెట్టండి:

ప్రొవైడర్ కవరేజ్: ఇది మీకు కావాల్సిన మోడల్‌లకు సపోర్ట్ చేస్తుందా?
రూటింగ్ మరియు ఫెయిల్‌ఓవర్: ఇది అవుట్‌లేజీలను హ్యాండిల్ చేయగలదా?
కాస్ట్ ట్రాకింగ్: ఏ యూజర్లు ఎన్ని టోకెన్లను వాడుతున్నారో మీరు చూడగలరా?
ఎకోసిస్టమ్: సమస్యలు ఎదురైనప్పుడు సహాయం చేయడానికి కమ్యూనిటీ ఉందా?
ఎక్స్‌టెన్సిబిలిటీ: మీరు సులభంగా కస్టమ్ లాజిక్‌ను జోడించగలరా?

మైక్రోసెకన్లలో గేట్‌వే ఓవర్‌హెడ్ గురించి చెప్పడం అనేది కేవలం మార్కెటింగ్ హెడ్‌లైన్ మాత్రమే. అది ప్రొడక్షన్ సమస్య కాదు. 1ms మాత్రమే జోడించి, నాకు ఏమీ తెలియకుండా వదిలేసే గేట్‌వే కంటే, 40ms అదనంగా తీసుకున్నా నా ఖర్చులను ట్రాక్ చేసే గేట్‌వేనే నాకు కావాలి.

మీ LLM ఇన్‌ఫ్రాస్ట్రక్చర్ పరంగా ఎదుర్కొంటున్న అతిపెద్ద సమస్య ఏమిటి?

మూలం: https://dev.to/paultwist/we-obsessed-over-gateway-latency-for-a-month-then-we-looked-at-the-actual-numbers-1kgk

ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi

𝗪𝗲 𝗢𝗯𝘀𝗲𝘀𝘀𝗲𝗱 𝗢𝘃𝗲𝗿 𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗟𝗮𝘁𝗲𝗻𝗰𝘆 𝗙𝗼𝗿 𝗔 𝗠𝗼𝗻𝘁𝗵

Continue reading

AI SaaS కోసం LLM గేట్‌వేలు

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗦𝗰𝗼𝗿𝗲 𝗬𝗼𝘂 𝗡𝗲𝗲𝗱 𝗗𝗼𝗲𝘀𝗻'𝘁 𝗘𝘅𝗶𝘀𝘁

ఈ RAG సెటప్‌తో నేను నా AI ఖర్చులను 60% ఎలా తగ్గించాను

AI గేట్‌వే: ఎంటర్‌ప్రైజ్ LLMల కోసం కేంద్ర నరాల వ్యవస్థ

𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼