𝗪𝗲 𝗢𝗯𝘀𝗲𝘀𝘀𝗲𝗱 𝗢𝘃𝗲𝗿 𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗟𝗮𝘁𝗲𝗻𝗰𝘆 𝗙𝗼𝗿 𝗔 𝗠𝗼𝗻𝘁𝗵

📅3 hours ago⏱2 min read

हमने एक महीने तक गेटवे लेटेंसी (Gateway Latency) पर गहरा शोध किया

मैंने एक महीने तक LLM गेटवे ओवरहेड को मापने में बिताया। मैंने प्रॉक्सी लेटेंसी को माइक्रोसेकंड तक ट्रैक किया। मैंने प्रति सेकंड 500, 1000 और 5000 अनुरोधों (requests) पर लोड टेस्ट चलाए।

फिर एक टीम के साथी ने पूछा: "कुल अनुरोध समय (total request time) का कितना प्रतिशत गेटवे का है?"

मैंने क्वेरी चलाई। उत्तर था 0.3%।

वर्तमान में LLM API कॉल्स में लेटेंसी की लागत कुछ इस प्रकार है:

अब देखें कि गेटवे कितना अतिरिक्त समय जोड़ते हैं:

• डायरेक्ट API कॉल: 0ms • Python प्रॉक्सी: 8-40ms • Go/Rust प्रॉक्सी: 1-11ms

बहस इस बात पर है कि क्या आप उस कॉल में 8ms या 1ms जोड़ रहे हैं जिसमें 3,000ms से 155,000ms तक का समय लगता है। यह सैटेलाइट से फाइल डाउनलोड होने के दौरान एक तेज़ USB केबल के बारे में बहस करने जैसा है।

कुछ बेंचमार्क "50x तेज़ लेटेंसी" का दावा करते हैं। ये टेस्ट अक्सर सीमित संसाधनों वाली छोटी मशीनों पर चलते हैं। प्रोडक्शन में, आप हॉरिजॉन्टल स्केलिंग (scale horizontally) करते हैं। जब आप कई इंस्टेंस का उपयोग करते हैं, तो लेटेंसी कम हो जाती है।

वास्तविक LLM कॉल में गेटवे की तुलना में 50x से 1000x अधिक समय लगता है। आपकी लेटेंसी मॉडल से आती है, प्रॉक्सी से नहीं।

यहाँ वे चीज़ें दी गई हैं जिन्होंने वास्तव में हमारे लिए बड़ा बदलाव लाया:

मॉडल का चुनाव: सरल कार्यों के लिए GPT-4o से Gemini 2.5 Flash पर स्विच करने से लेटेंसी में 60% की कमी आई।
लेटेंसी-आधारित रूटिंग: अनुरोधों को सबसे तेज़ उपलब्ध मॉडल पर रूट करने से हमारी P99 लेटेंसी में 40% की कमी आई।
कैशिंग (Caching): इससे हमारे वर्कफ़्लो में अनावश्यक कॉल्स में 30% की कमी आई।
प्रॉम्प्ट की लंबाई: सिस्टम प्रॉम्प्ट को 2000 टोकन से घटाकर 800 टोकन करने से रिस्पॉन्स 35% तेज़ हो गए।
फेलओवर (Failover): आउटेज के दौरान अन्य प्रोवाइडर्स पर स्वचालित स्विचिंग आपकी सेवा को चालू रखती है।

यदि आप एक LLM गेटवे चुनते हैं, तो इसके बजाय इन चीज़ों पर ध्यान दें:

प्रोवाइडर कवरेज: क्या यह उन मॉडल्स को सपोर्ट करता है जिनकी आपको आवश्यकता है?
रूटिंग और फेलओवर: क्या यह आउटेज को संभालता है?
लागत ट्रैकिंग (Cost tracking): क्या आप देख सकते हैं कि कौन से उपयोगकर्ता टोकन खर्च कर रहे हैं?
इकोसिस्टम: क्या चीज़ें खराब होने पर मदद के लिए कोई कम्युनिटी है?
विस्तारणीयता (Extensibility): क्या आप आसानी से कस्टम लॉजिक जोड़ सकते हैं?

माइक्रोसेकंड में गेटवे ओवरहेड एक मार्केटिंग हेडलाइन है। यह प्रोडक्शन की समस्या नहीं है। मैं ऐसे गेटवे को प्राथमिकता दूँगा जो 40ms जोड़ता है लेकिन मेरी लागतों को ट्रैक करता है, बजाय एक ऐसे गेटवे के जो 1ms जोड़ता है लेकिन मुझे अंधेरे में रखता है।

आपकी सबसे बड़ी LLM इंफ्रास्ट्रक्चर संबंधी समस्या (pain point) क्या है?

स्रोत: https://dev.to/paultwist/we-obsessed-over-gateway-latency-for-a-month-then-we-looked-at-the-actual-numbers-1kgk

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

𝗪𝗲 𝗢𝗯𝘀𝗲𝘀𝘀𝗲𝗱 𝗢𝘃𝗲𝗿 𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗟𝗮𝘁𝗲𝗻𝗰𝘆 𝗙𝗼𝗿 𝗔 𝗠𝗼𝗻𝘁𝗵

Continue reading

AI SaaS के लिए LLM गेटवे

जिस LLM बेंचमार्क स्कोर की आपको ज़रूरत है, वह मौजूद ही नहीं है

इस RAG सेटअप के साथ मैंने अपने AI खर्चों में 60% की कटौती कैसे की

AI गेटवे: एंटरप्राइज LLMs के लिए केंद्रीय तंत्रिका तंत्र

मैंने GPT-4o के मुकाबले Qwen का बेंचमार्क किया