మోడల్ షోడౌన్: లోకల్ వర్సెస్ క్లౌడ్ కోడింగ్
ఐదు లోకల్ మోడల్స్. ఒక క్లౌడ్ మోడల్. ఒక నిజమైన కోడింగ్ టాస్క్.
ఫలితాలు స్పష్టంగా ఉన్నాయి. కన్స్యూమర్ హార్డ్వేర్పై ఏజెంటిక్ కోడింగ్ టాస్క్ల కోసం లోకల్ మోడల్స్ ఇంకా సిద్ధంగా లేవు.
నేను Claude Sonnet 4 తో పోల్చి ఐదు లోకల్ మోడల్స్ను పరీక్షించాను. ఒక బ్లాగ్ అడ్మిన్ ప్యానెల్ కోసం ట్యాగ్ మేనేజర్ను నిర్మించడం దీని లక్ష్యం. ఈ మోడల్స్ కోడ్ రాయాలి, బిల్డ్స్ను పాస్ చేయాలి, స్క్రీన్షాట్లను తీయాలి మరియు కమిట్లను పుష్ చేయాలి.
ఫలితాలు:
• Sonnet 4 (Cloud): పూర్తయింది. 4 కమిట్లు. 10 నిమిషాలు. మనుషుల సహాయం లేకుండానే. • Qwen3-Coder 30B (Local): పాక్షికంగా. 1 కమిట్. పనిచేసింది కానీ గందరగోళంగా ఉంది. • Qwen 3.6 35B (Local): విఫలమైంది. బిల్డ్ను పాస్ చేసింది కానీ ఎప్పుడూ కమిట్ చేయలేదు. • Gemma 4 12B (Local): విఫలమైంది. లూప్లో చిక్కుకుపోయింది. • Hermes 4 14B (Local): విఫలమైంది. ఒకే తప్పును 13 సార్లు పునరావృతం చేసింది. • Devstral 24B (Local): పూర్తిగా విఫలమైంది. టూల్స్ను ఉపయోగించలేకపోయింది.
సామర్థ్య వ్యత్యాసం (The Efficiency Gap)
వ్యత్యాసం చాలా పెద్దది. Sonnet 4 కేవలం 19K టోకెన్లను ఉపయోగించి టాస్క్ను పూర్తి చేసింది. లోకల్ మోడల్స్ 1 మిలియన్ నుండి 4 మిలియన్ల టోకెన్లను వాడేసాయి. ఇది సామర్థ్యంలో 100x నుండి 200x వ్యత్యాసాన్ని సూచిస్తుంది.
లోకల్ మోడల్స్ కేవలం నెమ్మదిగా ఉండటమే కాదు, అవి రీజనింగ్లో (reasoning) కూడా ఇబ్బంది పడుతున్నాయి. నేను నాలుగు ప్రధాన సమస్యలను గమనించాను:
- డీజనరేట్ లూప్స్ (Degenerate loops): మోడల్స్ ఒకే తప్పు కోడ్ను లేదా టెక్స్ట్ను డజన్ల కొద్దీ సార్లు పునరావృతం చేస్తాయి.
- డైరెక్టరీ అమ్నీషియా (Directory amnesia): ఫైల్ సిస్టమ్లో తాము ఎక్కడ ఉన్నామో మోడల్స్ మర్చిపోతాయి.
- తక్కువ ప్రాధాన్యత (Poor prioritization): ప్రధాన లక్ష్యాన్ని పూర్తి చేయడం కంటే మోడల్స్ చిన్న చిన్న పనులపై దృష్టి పెడతాయి.
- స్వయంగా విశ్లేషించుకోలేకపోవడం (No self-diagnosis): డాక్యుమెంటేషన్ను చదవడం కంటే, మోడల్స్ విఫలమైన పరిష్కారాన్నే మళ్ళీ మళ్ళీ ప్రయత్నిస్తాయి.
ముగింపు (The Takeaway)
లోకల్ మోడల్స్ చూడటానికి బాగుండే కోడ్ను రాయగలవు. కానీ చివరి దశలో (last mile) విఫలమవుతాయి. ఏజెంట్గా ఉండటానికి కేవలం కోడ్ జనరేషన్ మాత్రమే సరిపోదు. స్టేట్ను మేనేజ్ చేయడం, లోపాలను సరిదిద్దడం మరియు ఎప్పుడు షిప్ చేయాలో తెలియడం వంటివి కూడా అవసరం.
Qwen3-Coder 30B మాత్రమే గమనించదగిన ఏకైక లోకల్ మోడల్. ఇది నిజంగా పనిచేసే కోడ్ను ఒక బ్రాంచ్కు పుష్ చేసింది. ఒకే కన్స్యూమర్ GPUపై నడిచే మోడల్కు ఇది ఒక పురోగతి.
Optional learning community: https://t.me/GyaanSetuAi