𝗠𝗼𝗱𝗲𝗹 𝗦𝗵𝗼𝘄𝗱𝗼𝘄𝗻: 𝗟𝗼𝗰𝗮𝗹 𝘃𝘀. 𝗖𝗹𝗼𝘂𝗱 𝗖𝗼𝗱𝗶𝗻𝗴 மாடல் மோதல்: லோக்கல் vs. கிளவுட் கோடிங்

ஐந்து லோக்கல் மாடல்கள். ஒரு கிளவுட் மாடல். ஒரு உண்மையான கோடிங் பணி.

முடிவுகள் தெளிவாக உள்ளன. நுகர்வோர் வன்பொருள்களில் (consumer hardware) ஏஜென்டிக் கோடிங் (agentic coding) பணிகளுக்கு லோக்கல் மாடல்கள் இன்னும் தயாராக இல்லை.

நான் ஐந்து லோக்கல் மாடல்களை Claude Sonnet 4 உடன் ஒப்பிட்டுச் சோதித்தேன். ஒரு பிளாக் அட்மின் பேனலுக்கான (blog admin panel) டேக் மேனேஜரை (tag manager) உருவாக்குவதே இதன் இலக்காக இருந்தது. மாடல்கள் குறியீட்டை (code) எழுத வேண்டும், பில்டுகளை (builds) வெற்றிகரமாக முடிக்க வேண்டும், ஸ்கிரீன்ஷாட்டுகளை எடுக்க வேண்டும் மற்றும் கமிட்களை (commits) புஷ் செய்ய வேண்டும்.

முடிவுகள்:

• Sonnet 4 (Cloud): முழுமை பெற்றது. 4 கமிட்கள். 10 நிமிடங்கள். மனித உதவி ஏதுமில்லை. • Qwen3-Coder 30B (Local): பகுதியளவு. 1 கமிட். வேலை செய்தது ஆனால் குழப்பமாக இருந்தது. • Qwen 3.6 35B (Local): தோல்வி அடைந்தது. பில்டை வெற்றிகரமாக முடித்தது ஆனால் கமிட் செய்யவில்லை. • Gemma 4 12B (Local): தோல்வி அடைந்தது. ஒரு லூப்பில் (loop) சிக்கிக்கொண்டது. • Hermes 4 14B (Local): தோல்வி அடைந்தது. ஒரே பிழையை 13 முறை மீண்டும் மீண்டும் செய்தது. • Devstral 24B (Local): முழுமையான தோல்வி. கருவிகளைப் (tools) பயன்படுத்த முடியவில்லை.

செயல்திறன் இடைவெளி

இந்த வித்தியாசம் மிகப்பெரியது. Sonnet 4 இந்த பணியை 19K டோக்கன்களைப் (tokens) பயன்படுத்தி முடித்தது. ஆனால் லோக்கல் மாடல்கள் 1 மில்லியன் முதல் 4 மில்லியன் டோக்கன்கள் வரை பயன்படுத்தின. இது செயல்திறனில் 100 முதல் 200 மடங்கு இடைவெளியைக் காட்டுகிறது.

லோக்கல் மாடல்கள் மெதுவானவை மட்டுமல்ல. அவை தர்க்கரீதியான சிந்தனையில் (reasoning) தடுமாறுகின்றன. நான் நான்கு முக்கியப் பிரச்சினைகளைக் கண்டறிந்தேன்:

முக்கியக் கருத்து

லோக்கல் மாடல்களால் பார்ப்பதற்கு நன்றாக இருக்கும் குறியீட்டை எழுத முடியும். ஆனால் இறுதி நிலையில் அவை தோல்வியடைகின்றன. ஒரு ஏஜென்ட்டாக (agent) செயல்பட குறியீடு உருவாக்குவதை விட மேலான திறன்கள் தேவை. நிலைமையை நிர்வகித்தல் (managing state), பிழைகளைச் சரிசெய்தல் மற்றும் எப்போது வெளியிடுவது (ship) என்பதைத் தெரிந்து வைத்திருப்பது அவசியம்.

கவனிப்பதற்குத் தகுதியான ஒரே லோக்கல் மாடல் Qwen3-Coder 30B ஆகும். இது உண்மையில் வேலை செய்யும் குறியீட்டை ஒரு பிரான்ச்சிற்கு (branch) புஷ் செய்தது. ஒரு தனி நுகர்வோர் GPU-வில் இயங்கும் மாடலுக்கு, இது ஒரு முன்னேற்றமாகும்.

ஆதாரம்: https://dev.to/carryologist/model-showdown-round-7-five-local-models-vs-one-cloud-model-on-a-real-coding-task-1ehj

விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi