మోడల్ షోడౌన్: లోకల్ వర్సెస్ క్లౌడ్ కోడింగ్

ఐదు లోకల్ మోడల్స్. ఒక క్లౌడ్ మోడల్. ఒక నిజమైన కోడింగ్ టాస్క్.

ఫలితాలు స్పష్టంగా ఉన్నాయి. కన్స్యూమర్ హార్డ్‌వేర్‌పై ఏజెంటిక్ కోడింగ్ టాస్క్‌ల కోసం లోకల్ మోడల్స్ ఇంకా సిద్ధంగా లేవు.

నేను Claude Sonnet 4 తో పోల్చి ఐదు లోకల్ మోడల్స్‌ను పరీక్షించాను. ఒక బ్లాగ్ అడ్మిన్ ప్యానెల్ కోసం ట్యాగ్ మేనేజర్‌ను నిర్మించడం దీని లక్ష్యం. ఈ మోడల్స్ కోడ్ రాయాలి, బిల్డ్స్‌ను పాస్ చేయాలి, స్క్రీన్‌షాట్‌లను తీయాలి మరియు కమిట్‌లను పుష్ చేయాలి.

ఫలితాలు:

• Sonnet 4 (Cloud): పూర్తయింది. 4 కమిట్‌లు. 10 నిమిషాలు. మనుషుల సహాయం లేకుండానే. • Qwen3-Coder 30B (Local): పాక్షికంగా. 1 కమిట్. పనిచేసింది కానీ గందరగోళంగా ఉంది. • Qwen 3.6 35B (Local): విఫలమైంది. బిల్డ్‌ను పాస్ చేసింది కానీ ఎప్పుడూ కమిట్ చేయలేదు. • Gemma 4 12B (Local): విఫలమైంది. లూప్‌లో చిక్కుకుపోయింది. • Hermes 4 14B (Local): విఫలమైంది. ఒకే తప్పును 13 సార్లు పునరావృతం చేసింది. • Devstral 24B (Local): పూర్తిగా విఫలమైంది. టూల్స్‌ను ఉపయోగించలేకపోయింది.

సామర్థ్య వ్యత్యాసం (The Efficiency Gap)

వ్యత్యాసం చాలా పెద్దది. Sonnet 4 కేవలం 19K టోకెన్లను ఉపయోగించి టాస్క్‌ను పూర్తి చేసింది. లోకల్ మోడల్స్ 1 మిలియన్ నుండి 4 మిలియన్ల టోకెన్లను వాడేసాయి. ఇది సామర్థ్యంలో 100x నుండి 200x వ్యత్యాసాన్ని సూచిస్తుంది.

లోకల్ మోడల్స్ కేవలం నెమ్మదిగా ఉండటమే కాదు, అవి రీజనింగ్‌లో (reasoning) కూడా ఇబ్బంది పడుతున్నాయి. నేను నాలుగు ప్రధాన సమస్యలను గమనించాను:

ముగింపు (The Takeaway)

లోకల్ మోడల్స్ చూడటానికి బాగుండే కోడ్‌ను రాయగలవు. కానీ చివరి దశలో (last mile) విఫలమవుతాయి. ఏజెంట్‌గా ఉండటానికి కేవలం కోడ్ జనరేషన్ మాత్రమే సరిపోదు. స్టేట్‌ను మేనేజ్ చేయడం, లోపాలను సరిదిద్దడం మరియు ఎప్పుడు షిప్ చేయాలో తెలియడం వంటివి కూడా అవసరం.

Qwen3-Coder 30B మాత్రమే గమనించదగిన ఏకైక లోకల్ మోడల్. ఇది నిజంగా పనిచేసే కోడ్‌ను ఒక బ్రాంచ్‌కు పుష్ చేసింది. ఒకే కన్స్యూమర్ GPUపై నడిచే మోడల్‌కు ఇది ఒక పురోగతి.

Source: https://dev.to/carryologist/model-showdown-round-7-five-local-models-vs-one-cloud-model-on-a-real-coding-task-1ehj

Optional learning community: https://t.me/GyaanSetuAi