மாடல் மோதல்: லோக்கல் vs. கிளவுட் கோடிங்

📅3 hours ago⏱2 min read

𝗠𝗼𝗱𝗲𝗹 𝗦𝗵𝗼𝘄𝗱𝗼𝘄𝗻: 𝗟𝗼𝗰𝗮𝗹 𝘃𝘀. 𝗖𝗹𝗼𝘂𝗱 𝗖𝗼𝗱𝗶𝗻𝗴 மாடல் மோதல்: லோக்கல் vs. கிளவுட் கோடிங்

ஐந்து லோக்கல் மாடல்கள். ஒரு கிளவுட் மாடல். ஒரு உண்மையான கோடிங் பணி.

முடிவுகள் தெளிவாக உள்ளன. நுகர்வோர் வன்பொருள்களில் (consumer hardware) ஏஜென்டிக் கோடிங் (agentic coding) பணிகளுக்கு லோக்கல் மாடல்கள் இன்னும் தயாராக இல்லை.

நான் ஐந்து லோக்கல் மாடல்களை Claude Sonnet 4 உடன் ஒப்பிட்டுச் சோதித்தேன். ஒரு பிளாக் அட்மின் பேனலுக்கான (blog admin panel) டேக் மேனேஜரை (tag manager) உருவாக்குவதே இதன் இலக்காக இருந்தது. மாடல்கள் குறியீட்டை (code) எழுத வேண்டும், பில்டுகளை (builds) வெற்றிகரமாக முடிக்க வேண்டும், ஸ்கிரீன்ஷாட்டுகளை எடுக்க வேண்டும் மற்றும் கமிட்களை (commits) புஷ் செய்ய வேண்டும்.

முடிவுகள்:

• Sonnet 4 (Cloud): முழுமை பெற்றது. 4 கமிட்கள். 10 நிமிடங்கள். மனித உதவி ஏதுமில்லை. • Qwen3-Coder 30B (Local): பகுதியளவு. 1 கமிட். வேலை செய்தது ஆனால் குழப்பமாக இருந்தது. • Qwen 3.6 35B (Local): தோல்வி அடைந்தது. பில்டை வெற்றிகரமாக முடித்தது ஆனால் கமிட் செய்யவில்லை. • Gemma 4 12B (Local): தோல்வி அடைந்தது. ஒரு லூப்பில் (loop) சிக்கிக்கொண்டது. • Hermes 4 14B (Local): தோல்வி அடைந்தது. ஒரே பிழையை 13 முறை மீண்டும் மீண்டும் செய்தது. • Devstral 24B (Local): முழுமையான தோல்வி. கருவிகளைப் (tools) பயன்படுத்த முடியவில்லை.

செயல்திறன் இடைவெளி

இந்த வித்தியாசம் மிகப்பெரியது. Sonnet 4 இந்த பணியை 19K டோக்கன்களைப் (tokens) பயன்படுத்தி முடித்தது. ஆனால் லோக்கல் மாடல்கள் 1 மில்லியன் முதல் 4 மில்லியன் டோக்கன்கள் வரை பயன்படுத்தின. இது செயல்திறனில் 100 முதல் 200 மடங்கு இடைவெளியைக் காட்டுகிறது.

லோக்கல் மாடல்கள் மெதுவானவை மட்டுமல்ல. அவை தர்க்கரீதியான சிந்தனையில் (reasoning) தடுமாறுகின்றன. நான் நான்கு முக்கியப் பிரச்சினைகளைக் கண்டறிந்தேன்:

தேய்ந்துபோன லூப்கள் (Degenerate loops): மாடல்கள் ஒரே தவறான குறியீடு அல்லது உரையை டஜன் கணக்கான முறை மீண்டும் மீண்டும் செய்கின்றன.
டைரக்டரி மறதி (Directory amnesia): கோப்பு அமைப்பில் (file system) தாங்கள் எங்கே இருக்கிறோம் என்பதை மாடல்கள் மறந்துவிடுகின்றன.
மோசமான முன்னுரிமை அளித்தல் (Poor prioritization): மாடல்கள் முக்கிய இலக்கை முடிப்பதற்குப் பதிலாகச் சிறிய பணிகளில் கவனம் செலுத்துகின்றன.
சுய-கண்டறிதல் இல்லாமை (No self-diagnosis): ஆவணங்களைப் (documentation) படிப்பதற்குப் பதிலாக, மாடல்கள் தோல்வியடைந்த அதே தீர்வை மீண்டும் மீண்டும் முயற்சிக்கின்றன.

முக்கியக் கருத்து

லோக்கல் மாடல்களால் பார்ப்பதற்கு நன்றாக இருக்கும் குறியீட்டை எழுத முடியும். ஆனால் இறுதி நிலையில் அவை தோல்வியடைகின்றன. ஒரு ஏஜென்ட்டாக (agent) செயல்பட குறியீடு உருவாக்குவதை விட மேலான திறன்கள் தேவை. நிலைமையை நிர்வகித்தல் (managing state), பிழைகளைச் சரிசெய்தல் மற்றும் எப்போது வெளியிடுவது (ship) என்பதைத் தெரிந்து வைத்திருப்பது அவசியம்.

கவனிப்பதற்குத் தகுதியான ஒரே லோக்கல் மாடல் Qwen3-Coder 30B ஆகும். இது உண்மையில் வேலை செய்யும் குறியீட்டை ஒரு பிரான்ச்சிற்கு (branch) புஷ் செய்தது. ஒரு தனி நுகர்வோர் GPU-வில் இயங்கும் மாடலுக்கு, இது ஒரு முன்னேற்றமாகும்.

ஆதாரம்: https://dev.to/carryologist/model-showdown-round-7-five-local-models-vs-one-cloud-model-on-a-real-coding-task-1ehj

விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi

மாடல் மோதல்: லோக்கல் vs. கிளவுட் கோடிங்

Continue reading

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗮𝗿𝗲 𝗶𝗻 𝟮𝟬𝟮𝟲, 𝗯𝘂𝘁 𝘁𝗵𝗲 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝘀 𝗦𝘁𝘂𝗰𝗸 𝗶𝗻 𝟮𝟬𝟭𝟬

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗶𝗻 𝟮𝟬𝟮𝟲 𝗯𝘂𝘁 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝗻 𝟮𝟬𝟭𝟬

𝗥𝘂𝗻𝗻𝗶𝗻𝗴 𝗧𝘄𝗼 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗢𝗻𝗲 𝗚𝗣𝗨: 𝗧𝗵𝗲 𝗠𝗮𝘁𝗵 𝗕𝗲𝗵𝗶𝗻𝗱 𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀

𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀

𝗩𝗶𝗯𝗲 𝗖𝗼𝗱𝗶𝗻𝗴 𝟭𝟬𝟭: 𝗔 𝗚𝘂𝗶𝗱𝗲 𝗳𝗼𝗿 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿𝘀