इन्फरेंस लेटेंसी को कम करने के 9 तरीके

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

7 घंटे पहले2मिनट पढ़ें

इन्फरेंस लेटेंसी कम करने के 9 तरीके

जब कोई AI एप्लिकेशन धीमा महसूस होता है, तो अधिकांश टीमें मॉडल को दोष देती हैं।

अक्सर मॉडल लेटेंसी बजट का केवल एक हिस्सा होता है।

एक सामान्य रिक्वेस्ट कई चरणों से होकर गुजरती है:

• ऑथेंटिकेशन (Authentication) • फीचर रिट्रीवल (Feature Retrieval) • वेक्टर सर्च (Vector Search) • एजेंट ऑर्केस्ट्रेशन (Agent Orchestration) • LLM इन्फरेंस (LLM Inference) • गार्डरेल्स (Guardrails) • रिस्पॉन्स जनरेशन (Response Generation)

इन लेयर्स के कारण लेटेंसी बढ़ती जाती है। सीनियर इंजीनियर्स पूरे पाइपलाइन को ऑप्टिमाइज़ करते हैं।

प्रोडक्शन में लेटेंसी कम करने के 9 तरीके यहाँ दिए गए हैं:

फीचर स्टोर्स (Feature Stores) का उपयोग करें कई सिस्टम प्रेडिक्शन करने के बजाय डेटा फेच करने में अधिक समय बिताते हैं। यदि डेटा रिट्रीवल में 450ms लगते हैं, तो एक 50ms का मॉडल 500ms का सिस्टम बन जाता है। लुकअप को तेज़ करने के लिए Redis, DynamoDB, या Feast जैसे टूल्स का उपयोग करें।
फीचर्स को प्रीकंप्यूट (Precompute) करें रिक्वेस्ट के समय सब कुछ कैलकुलेट न करें। कस्टमर लाइफटाइम वैल्यू जैसे डेटा को प्रीकंप्यूट करने के लिए नाइटली बैच पाइपलाइन्स का उपयोग करें। रिक्वेस्ट के दौरान केवल हाल के ट्रांजेक्शन जैसे रियल-टाइम डेटा को ही कैलकुलेट करें।
कैशिंग (Caching) लागू करें कई रिक्वेस्ट दोहराव वाली होती हैं। सामान्य क्वेरीज़ के लिए रिस्पॉन्स को कैश करने के लिए Redis या CloudFront का उपयोग करें। एक 'कैश हिट' लेटेंसी को सेकंडों से घटाकर मिलीसेकंड में कर देता है।
रिट्रीवल (Retrieval) को ऑप्टिमाइज़ करें RAG सिस्टम में, पूरे डेटाबेस को खोजना धीमा होता है। अपने सर्च स्पेस को विशिष्ट विभागों या डॉक्यूमेंट प्रकारों तक सीमित करने के लिए मेटाडेटा फिल्टर्स का उपयोग करें।
हाइब्रिड सर्च (Hybrid Search) का समझदारी से उपयोग करें कीवर्ड और वेक्टर दोनों के साथ सर्च करने से क्वालिटी सुधरती है लेकिन इसमें समय भी लगता है। पहले एक छोटा कैंडिडेट सेट खोजने के लिए कीवर्ड सर्च का उपयोग करें। फिर केवल उन्हीं कैंडिडेट्स पर वेक्टर रैंकिंग का उपयोग करें।
टास्क को पैरेलल (Parallel) में चलाएं एजेंट टूल्स को एक के बाद एक न चलाएं। सीक्वेंशियल एग्जीक्यूशन हर बार समय बढ़ा देता है। कुल समय को सबसे धीमे टास्क की अवधि तक कम करने के लिए टूल्स को पैरेलल में चलाएं।
सही आकार के मॉडल्स (Right-Sized Models) का उपयोग करें हर काम के लिए बड़े मॉडल की ज़रूरत नहीं होती। क्लासिफिकेशन और इंटेंट डिटेक्शन के लिए छोटे मॉडल्स का उपयोग करें। बड़े मॉडल्स का उपयोग केवल जटिल रीजनिंग (reasoning) के लिए करें।
क्वांटाइजेशन (Quantization) लागू करें FP32 मॉडल्स को INT8 या INT4 फॉर्मेट में बदलें। इससे मेमोरी का उपयोग कम होता है और इन्फरेंस तेज़ हो जाता है। यह एज डिप्लॉयमेंट (edge deployments) और हाई-थ्रूपुट वर्कलोड के लिए उपयोगी है।
सब कुछ ट्रैक करें आप उसे ठीक नहीं कर सकते जिसे आप देख नहीं सकते। हर स्टेप के लिए लेटेंसी ट्रैक करें: रिट्रीवल, सर्च, टूल कॉल्स और इन्फरेंस। असली बॉटलनेक्स (bottlenecks) खोजने के लिए Langfuse या OpenTelemetry जैसे टूल्स का उपयोग करें।

यूजर्स को इससे फर्क नहीं पड़ता कि देरी डेटाबेस से हो रही है या LLM से। उन्हें केवल कुल प्रतीक्षा समय (total wait time) से मतलब होता है।

स्रोत: https://dev.to/parth_sarthisharma_105e7/9-practical-ways-senior-ml-engineers-reduce-inference-latency-j9f

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

इन्फरेंस लेटेंसी को कम करने के 9 तरीके

पढ़ना जारी रखें

उच्च प्रदर्शन वाले AI एजेंट वितरित प्रणालियाँ हैं

𝗥𝗲𝗱𝘂𝗰𝗲 𝗜𝗻𝗰𝗶𝗱𝗲𝗻𝘁 𝗥𝗲𝘀𝗽𝗼𝗻𝘀𝗲 𝗧𝗶𝗺𝗲 𝗪𝗶𝘁𝗵 𝗔𝗜𝗢𝗽𝘀

मैंने स्ट्रीमिंग और कैशिंग के ज़रिए AI लेटेंसी को कैसे ठीक किया

एज कंप्यूटिंग के साथ लेटेंसी में कमी

Async Batching से Inference लागत में 50% की कमी आती है