𝗠𝗼𝗱𝗲𝗹 𝗥𝗼𝘂𝘁𝗶𝗻𝗴: அனைத்திற்கும் ஒரே மாடலைப் பயன்படுத்துவதை நிறுத்துங்கள்

ஒரு சிறிய மின்னஞ்சலைச் சுருக்க 70B மாடலை இயக்குவது வீணானது. குறியீட்டை (code) ஆய்வு செய்ய 3B மாடலைப் பயன்படுத்துவது ஆபத்தானது. பெரும்பாலான அமைப்புகள் நடுநிலையாகவே உள்ளன. இங்குதான் மாடல் ரூட்டிங் (model routing) உதவுகிறது.

ரூட்டிங் என்பது பணியின் கடினத்தன்மைக்கும் மாடலின் திறனுக்கும் இடையிலான பொருத்தத்தை ஏற்படுத்துகிறது. இது பணத்தைச் சேமிக்கிறது மற்றும் காத்திருப்பு நேரத்தைக் குறைக்கிறது. பெரும்பாலான மக்கள் அனைத்திற்கும் ஒரே மாடலைப் பயன்படுத்துகிறார்கள். செலவு அல்லது வேகம் பிரச்சனையாக மாறும் வரை இது வேலை செய்யும்.

இந்த நான்கு உத்திகளைப் பயன்படுத்தவும்:

• திறன் சார்ந்தவை (Capability-based): மாடலால் என்ன செய்ய முடியும் என்பதன் அடிப்படையில் ரூட்டிங் செய்யவும். • செலவு சார்ந்தவை (Cost-aware): உங்கள் பட்ஜெட்டின் அடிப்படையில் ரூட்டிங் செய்யவும். • தாமத உணர்திறன் சார்ந்தவை (Latency-aware): உங்களுக்கு எவ்வளவு விரைவாகப் பதில் தேவை என்பதன் அடிப்படையில் ரூட்டிங் செய்யவும். • கலப்பு (Hybrid): இவை மூன்றையும் இணைக்கவும்.

உங்கள் பணிகளை சரியான அளவிற்கேற்ப பொருத்தவும்:

  • வகைப்படுத்துதல் மற்றும் டேக்கிங் (Classification and tagging): 1-3B மாடல்கள் (எ.கா., Qwen2.5-1.5B).
  • சுருக்கம் மற்றும் பிரித்தெடுத்தல் (Summarization and extraction): 3-7B மாடல்கள் (எ.கா., Llama-3.1-8B).
  • குறியீடு உருவாக்கம் (Code generation): 7-14B மாடல்கள் (எ.கா., DeepSeek-Coder).
  • சிக்கலான பகுத்தறிவு (Complex reasoning): 14-32B மாடல்கள் (எ.கா., Llama-3.1-70B).
  • ஆக்கபூர்வமான எழுத்து மற்றும் பகுப்பாய்வு (Creative writing and analysis): 32B+ மாடல்கள் (எ.கா., GPT-4).

ஒரு சிறிய மாடலால் ஒரு பணியைச் செய்ய முடியும் என்றால், பெரிய மாடலைப் பயன்படுத்த வேண்டாம். ஒரு 1.5B மாடலால் உணர்வுப் பகுப்பாய்வை (sentiment analysis) சிறப்பாகச் செய்ய முடியும். ஆனால் அதால் ஒரு கட்டுரையை எழுத முடியாது.

லோக்கல் மாடல்கள் (Local models) ஒரு புத்திசாலித்தனமான தேர்வாகும். வன்பொருளை (hardware) வாங்கிய பிறகு அவற்றிற்குச் செலவு கிட்டத்தட்ட ஏதுமில்லை. நீங்கள் ஆயிரக்கணக்கான கோரிக்கைகளைச் செயலாக்கினால், API டோக்கன்களுக்குப் பணம் செலுத்துவதை விட லோக்கல் மாடலை இயக்குவது மிகவும் மலிவானது.

வேகத்திற்காக இந்த பயன்பாட்டு முறைகளைக் கவனியுங்கள்:

  • நிகழ்நேர அரட்டை (Real-time chat): உடனடி பதில்களுக்கு 7B-க்கும் குறைவான மாடல்களைப் பயன்படுத்தவும்.
  • ஊடாடும் கருவிகள் (Interactive tools): 14B-க்கும் குறைவான மாடல்களைப் பயன்படுத்தவும்.
  • தொகுப்பு செயலாக்கம் (Batch processing): எந்த மாடல் அளவையும் பயன்படுத்தலாம்.

நீங்கள் ஒரு ரூட்டரை (router) உருவாக்குகிறீர்கள் என்றால், ஒரு 'ஃபால்பேக் செயின்' (fallback chain) முறையைச் சேர்க்கவும். சிறந்த மாடலுடன் தொடங்கவும். அது தோல்வியடைந்தாலோ அல்லது வரம்பைத் தொட்டாலோ, அடுத்த சிறந்த மாடலுக்குச் செல்லவும். உங்கள் சங்கிலியில் கடைசி மாடல் ஒரு லோக்கல் மாடலாக இருக்க வேண்டும். லோக்கல் மாடல்கள் நெட்வொர்க் சிக்கல்கள் அல்லது API வரம்புகளால் தோல்வியடைவதில்லை.

ரூட்டிங் சிக்கலை அதிகரிக்கிறது. நீங்கள் செய்யும் ஒவ்வொரு பணியும் ஒரே மாதிரியான கடினத்தன்மை கொண்டதாக இருந்தால் அதைத் தவிர்க்கவும். ஒரு மாடலுடன் தொடங்குங்கள். செலவு அல்லது வேகம் பிரச்சனையாக மாறும் போது மட்டும் ரூட்டரைச் சேர்க்கவும்.

Source: https://dev.to/rosgluk/model-routing-stop-using-one-model-for-everything-4mf1

Optional learning community: https://t.me/GyaanSetuAi