मॉडेल शोडाउन: लोकल विरुद्ध क्लाउड कोडिंग

पाच लोकल मॉडेल्स. एक क्लाउड मॉडेल. एक वास्तविक कोडिंग टास्क.

निकाल स्पष्ट आहेत. ग्राहक उपकरणांवर (consumer hardware) एजेंटिक कोडिंग टास्कसाठी लोकल मॉडेल्स अजून तयार नाहीत.

मी Claude Sonnet 4 च्या विरुद्ध पाच लोकल मॉडेल्सची चाचणी घेतली. उद्दिष्ट एका ब्लॉग ॲडमिन पॅनेलसाठी टॅग मॅनेजर तयार करणे हे होते. मॉडेल्सना कोड लिहिणे, बिल्ड्स पास करणे, स्क्रीनशॉट्स घेणे आणि कमिट्स पुश करणे आवश्यक होते.

निकाल:

• Sonnet 4 (Cloud): पूर्ण झाले. 4 कमिट्स. 10 मिनिटे. मानवी मदतीशिवाय. • Qwen3-Coder 30B (Local): अंशतः. 1 कमिट. काम केले पण गोंधळलेले होते. • Qwen 3.6 35B (Local): अपयशी. बिल्ड पास झाले पण कधीही कमिट केले नाही. • Gemma 4 12B (Local): अपयशी. लूपमध्ये अडकले. • Hermes 4 14B (Local): अपयशी. तीच तीच चूक 13 वेळा केली. • Devstral 24B (Local): पूर्ण अपयश. टूल्स वापरू शकले नाहीत.

कार्यक्षमतेतील तफावत

फरक प्रचंड आहे. Sonnet 4 ने 19K टोकन्स वापरून काम पूर्ण केले. लोकल मॉडेल्सनी 1 दशलक्ष ते 4 दशलक्ष टोकन्स खर्च केले. ही कार्यक्षमतेतील 100x ते 200x ची तफावत आहे.

लोकल मॉडेल्स फक्त संथ नाहीत, तर त्यांना तर्कशक्तीमध्ये (reasoning) देखील अडचणी येतात. मला चार मुख्य समस्या आढळल्या:

निष्कर्ष

लोकल मॉडेल्स चांगले दिसणारा कोड लिहू शकतात. पण शेवटच्या टप्प्यावर (last mile) ते अपयशी ठरतात. एजंट होण्यासाठी केवळ कोड जनरेशन पुरेसे नाही. त्यासाठी स्टेट मॅनेज करणे, चुका सुधारणे आणि कधी कोड शिप करायचा हे माहित असणे आवश्यक आहे.

Qwen3-Coder 30B हे एकमेव लक्ष देण्यासारखे लोकल मॉडेल आहे. त्याने खरोखरच एका ब्रँचवर चालणारा कोड पुश केला. एका सिंगल कंज्युमर GPU वर चालणाऱ्या मॉडेलसाठी, ही प्रगती आहे.

स्रोत: https://dev.to/carryologist/model-showdown-round-7-five-local-models-vs-one-cloud-model-on-a-real-coding-task-1ehj

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi