𝗠𝗼𝗱𝗲𝗹 𝗥𝗼𝘂𝘁𝗶𝗻𝗴: 𝗦𝘁𝗼𝗽 𝗨𝘀𝗶𝗻𝗴 𝗢𝗻𝗲 𝗠𝗼𝗱𝗲𝗹 𝗳𝗼𝗿 𝗘𝘃𝗲𝗿𝘆𝘁𝗵𝗶𝗻𝗴

Translated for your language. Read the original.

AI-assisted draft.

२ दिवसांपूर्वी2min read

मॉडेल राउटिंग: प्रत्येक गोष्टीसाठी एकच मॉडेल वापरणे थांबवा

एखादा छोटा ईमेल सारांशित (summarize) करण्यासाठी 70B मॉडेल वापरणे ही संसाधनांची नासाडी आहे. कोड रिव्ह्यू करण्यासाठी 3B मॉडेल वापरणे जोखमीचे आहे. बहुतेक प्रणाली या दोन्हीच्या मध्ये कुठेतरी असतात. इथेच मॉडेल राउटिंग मदत करते.

राउटिंग कामाची कठीणता आणि मॉडेलची क्षमता यांचा मेळ घालते. यामुळे पैसे वाचतात आणि प्रतीक्षा वेळ (wait time) कमी होतो. बहुतेक लोक प्रत्येक गोष्टीसाठी एकच मॉडेल वापरतात. जोपर्यंत खर्च किंवा वेग समस्या बनत नाही, तोपर्यंत हे चालते.

या चार रणनीती वापरा:

• क्षमता-आधारित (Capability-based): मॉडेल काय करू शकते यानुसार राउट करा. • खर्च-जाणीव (Cost-aware): तुमच्या बजेटनुसार राउट करा. • लॅटन्सी-जाणीव (Latency-aware): तुम्हाला प्रतिसाद किती वेगाने हवा आहे त्यानुसार राउट करा. • हायब्रिड (Hybrid): या तिन्हींचे मिश्रण करा.

तुमची कामे योग्य आकाराच्या मॉडेलशी जुळवा:

वर्गीकरण आणि टॅगिंग (Classification and tagging): 1-3B मॉडेल्स (उदा. Qwen2.5-1.5B).
सारांश आणि माहिती काढणे (Summarization and extraction): 3-7B मॉडेल्स (उदा. Llama-3.1-8B).
कोड जनरेशन (Code generation): 7-14B मॉडेल्स (उदा. DeepSeek-Coder).
जटिल तर्कशक्ती (Complex reasoning): 14-32B मॉडेल्स (उदा. Llama-3.1-70B).
सर्जनशील लेखन आणि विश्लेषण (Creative writing and analysis): 32B+ मॉडेल्स (उदा. GPT-4).

जर एखादे छोटे मॉडेल एखादे काम करू शकत असेल, तर मोठे मॉडेल वापरू नका. 1.5B मॉडेल 'सेंटिमेंट अनालिसिस' (sentiment analysis) उत्तम प्रकारे करू शकते, पण ते निबंध लिहू शकत नाही.

लोकल मॉडेल्स हा एक हुशार पर्याय आहे. एकदा तुम्ही हार्डवेअर खरेदी केले की त्यांचा खर्च जवळजवळ शून्य असतो. जर तुम्ही हजारो विनंत्या (requests) प्रोसेस करत असाल, तर API टोकन्ससाठी पैसे मोजण्यापेक्षा लोकल मॉडेल चालवणे खूप स्वस्त पडू शकते.

वेगासाठी या वापराच्या उदाहरणांचा विचार करा:

रिअल-टाइम चॅट: त्वरित प्रतिसादासाठी 7B पेक्षा कमी आकाराची मॉडेल्स वापरा.
इंटरअॅक्टिव्ह टूल्स: 14B पेक्षा कमी आकाराची मॉडेल्स वापरा.
बॅच प्रोसेसिंग: कोणत्याही आकाराचे मॉडेल वापरा.

जर तुम्ही राऊटर बनवत असाल, तर त्यात एक 'फॉलबॅक चेन' (fallback chain) समाविष्ट करा. सर्वोत्तम मॉडेलपासून सुरुवात करा. जर ते अयशस्वी झाले किंवा मर्यादेपर्यंत पोहोचले, तर पुढच्या सर्वोत्तम मॉडेलकडे वळा. तुमच्या चेनमधील शेवटचे मॉडेल हे लोकल मॉडेल असावे. लोकल मॉडेल्स नेटवर्क समस्या किंवा API मर्यादांमुळे निकामी होत नाहीत.

राउटिंगमुळे गुंतागुंत वाढते. जर तुमची सर्व कामे एकाच पातळीची कठीण असतील, तर त्याचा वापर करू नका. एका मॉडेलपासून सुरुवात करा. जेव्हा खर्च किंवा वेग समस्या बनू लागेल, तेव्हाच राऊटर जोडा.

Source: https://dev.to/rosgluk/model-routing-stop-using-one-model-for-everything-4mf1

Optional learning community: https://t.me/GyaanSetuAi

𝗠𝗼𝗱𝗲𝗹 𝗥𝗼𝘂𝘁𝗶𝗻𝗴: 𝗦𝘁𝗼𝗽 𝗨𝘀𝗶𝗻𝗴 𝗢𝗻𝗲 𝗠𝗼𝗱𝗲𝗹 𝗳𝗼𝗿 𝗘𝘃𝗲𝗿𝘆𝘁𝗵𝗶𝗻𝗴

Continue reading

तीन मॉडेल्स, तीन मते, शून्य डॉलर्स

𝗖𝗼𝘀𝘁 𝗢𝗽𝘁𝗶𝗺𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗟𝗟𝗠 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

𝗠𝘂𝗹𝘁𝗶 𝗠𝗼𝗱𝗲𝗹 𝗦𝘆𝘀𝘁𝗲𝗺 𝗗𝗲𝘀𝗶𝗴𝗻: 𝗪𝗵𝗲𝗻 𝗢𝗻𝗲 𝗠𝗼𝗱𝗲𝗹 𝗜𝘀𝗻'𝘁 𝗘𝗻𝗼𝘂𝗴𝗵

LLM गेटवे: राउटिंग, फॉलबॅक्स आणि सिमेंटिक कॅशिंग

𝗡𝗼𝗯𝗼𝗱𝘆 𝗪𝗮𝗻𝘁𝘀 𝗬𝗼𝘂𝗿 𝟳𝟬𝗕 𝗣𝗮𝗿𝗮𝗺𝗲𝘁𝗲𝗿 𝗠𝗼𝗱𝗲𝗹 𝗔𝗻𝘆𝗺𝗼𝗿𝗲