𝗠𝗼𝗱𝗲𝗹 𝗥𝗼𝘂𝘁𝗶𝗻𝗴: 𝗦𝘁𝗼𝗽 𝗨𝘀𝗶𝗻𝗴 𝗢𝗻𝗲 𝗠𝗼𝗱𝗲𝗹 𝗳𝗼𝗿 𝗘𝘃𝗲𝗿𝘆𝘁𝗵𝗶𝗻𝗴

Translated for your language. Read the original.

AI-assisted draft.

நேற்று முன் தினம்2min read

𝗠𝗼𝗱𝗲𝗹 𝗥𝗼𝘂𝘁𝗶𝗻𝗴: அனைத்திற்கும் ஒரே மாடலைப் பயன்படுத்துவதை நிறுத்துங்கள்

ஒரு சிறிய மின்னஞ்சலைச் சுருக்க 70B மாடலை இயக்குவது வீணானது. குறியீட்டை (code) ஆய்வு செய்ய 3B மாடலைப் பயன்படுத்துவது ஆபத்தானது. பெரும்பாலான அமைப்புகள் நடுநிலையாகவே உள்ளன. இங்குதான் மாடல் ரூட்டிங் (model routing) உதவுகிறது.

ரூட்டிங் என்பது பணியின் கடினத்தன்மைக்கும் மாடலின் திறனுக்கும் இடையிலான பொருத்தத்தை ஏற்படுத்துகிறது. இது பணத்தைச் சேமிக்கிறது மற்றும் காத்திருப்பு நேரத்தைக் குறைக்கிறது. பெரும்பாலான மக்கள் அனைத்திற்கும் ஒரே மாடலைப் பயன்படுத்துகிறார்கள். செலவு அல்லது வேகம் பிரச்சனையாக மாறும் வரை இது வேலை செய்யும்.

இந்த நான்கு உத்திகளைப் பயன்படுத்தவும்:

• திறன் சார்ந்தவை (Capability-based): மாடலால் என்ன செய்ய முடியும் என்பதன் அடிப்படையில் ரூட்டிங் செய்யவும். • செலவு சார்ந்தவை (Cost-aware): உங்கள் பட்ஜெட்டின் அடிப்படையில் ரூட்டிங் செய்யவும். • தாமத உணர்திறன் சார்ந்தவை (Latency-aware): உங்களுக்கு எவ்வளவு விரைவாகப் பதில் தேவை என்பதன் அடிப்படையில் ரூட்டிங் செய்யவும். • கலப்பு (Hybrid): இவை மூன்றையும் இணைக்கவும்.

உங்கள் பணிகளை சரியான அளவிற்கேற்ப பொருத்தவும்:

வகைப்படுத்துதல் மற்றும் டேக்கிங் (Classification and tagging): 1-3B மாடல்கள் (எ.கா., Qwen2.5-1.5B).
சுருக்கம் மற்றும் பிரித்தெடுத்தல் (Summarization and extraction): 3-7B மாடல்கள் (எ.கா., Llama-3.1-8B).
குறியீடு உருவாக்கம் (Code generation): 7-14B மாடல்கள் (எ.கா., DeepSeek-Coder).
சிக்கலான பகுத்தறிவு (Complex reasoning): 14-32B மாடல்கள் (எ.கா., Llama-3.1-70B).
ஆக்கபூர்வமான எழுத்து மற்றும் பகுப்பாய்வு (Creative writing and analysis): 32B+ மாடல்கள் (எ.கா., GPT-4).

ஒரு சிறிய மாடலால் ஒரு பணியைச் செய்ய முடியும் என்றால், பெரிய மாடலைப் பயன்படுத்த வேண்டாம். ஒரு 1.5B மாடலால் உணர்வுப் பகுப்பாய்வை (sentiment analysis) சிறப்பாகச் செய்ய முடியும். ஆனால் அதால் ஒரு கட்டுரையை எழுத முடியாது.

லோக்கல் மாடல்கள் (Local models) ஒரு புத்திசாலித்தனமான தேர்வாகும். வன்பொருளை (hardware) வாங்கிய பிறகு அவற்றிற்குச் செலவு கிட்டத்தட்ட ஏதுமில்லை. நீங்கள் ஆயிரக்கணக்கான கோரிக்கைகளைச் செயலாக்கினால், API டோக்கன்களுக்குப் பணம் செலுத்துவதை விட லோக்கல் மாடலை இயக்குவது மிகவும் மலிவானது.

வேகத்திற்காக இந்த பயன்பாட்டு முறைகளைக் கவனியுங்கள்:

நிகழ்நேர அரட்டை (Real-time chat): உடனடி பதில்களுக்கு 7B-க்கும் குறைவான மாடல்களைப் பயன்படுத்தவும்.
ஊடாடும் கருவிகள் (Interactive tools): 14B-க்கும் குறைவான மாடல்களைப் பயன்படுத்தவும்.
தொகுப்பு செயலாக்கம் (Batch processing): எந்த மாடல் அளவையும் பயன்படுத்தலாம்.

நீங்கள் ஒரு ரூட்டரை (router) உருவாக்குகிறீர்கள் என்றால், ஒரு 'ஃபால்பேக் செயின்' (fallback chain) முறையைச் சேர்க்கவும். சிறந்த மாடலுடன் தொடங்கவும். அது தோல்வியடைந்தாலோ அல்லது வரம்பைத் தொட்டாலோ, அடுத்த சிறந்த மாடலுக்குச் செல்லவும். உங்கள் சங்கிலியில் கடைசி மாடல் ஒரு லோக்கல் மாடலாக இருக்க வேண்டும். லோக்கல் மாடல்கள் நெட்வொர்க் சிக்கல்கள் அல்லது API வரம்புகளால் தோல்வியடைவதில்லை.

ரூட்டிங் சிக்கலை அதிகரிக்கிறது. நீங்கள் செய்யும் ஒவ்வொரு பணியும் ஒரே மாதிரியான கடினத்தன்மை கொண்டதாக இருந்தால் அதைத் தவிர்க்கவும். ஒரு மாடலுடன் தொடங்குங்கள். செலவு அல்லது வேகம் பிரச்சனையாக மாறும் போது மட்டும் ரூட்டரைச் சேர்க்கவும்.

Source: https://dev.to/rosgluk/model-routing-stop-using-one-model-for-everything-4mf1

Optional learning community: https://t.me/GyaanSetuAi

𝗠𝗼𝗱𝗲𝗹 𝗥𝗼𝘂𝘁𝗶𝗻𝗴: 𝗦𝘁𝗼𝗽 𝗨𝘀𝗶𝗻𝗴 𝗢𝗻𝗲 𝗠𝗼𝗱𝗲𝗹 𝗳𝗼𝗿 𝗘𝘃𝗲𝗿𝘆𝘁𝗵𝗶𝗻𝗴

Continue reading

மூன்று மாடல்கள், மூன்று கருத்துக்கள், பூஜ்ஜிய டாலர்கள்

𝗖𝗼𝘀𝘁 𝗢𝗽𝘁𝗶𝗺𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗟𝗟𝗠 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

மல்டி மாடல் சிஸ்டம் டிசைன்: ஒரு மாடல் போதுமானதாக இல்லாதபோது

𝗟𝗟𝗠 𝗚𝗮𝘁𝗲𝘄𝗮𝘆𝘀: 𝗥𝗼𝘂𝘁𝗶𝗻𝗴, 𝗙𝗮𝗹𝗹𝗯𝗮𝗰𝗸𝘀, 𝗔𝗻𝗱 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗖𝗮𝗰𝗵𝗶𝗻𝗴

இனி உங்கள் 70B பாராமீட்டர் மாடலை யாரும் விரும்புவதில்லை