मॉडेल शोडाउन: लोकल विरुद्ध क्लाउड कोडिंग
पाच लोकल मॉडेल्स. एक क्लाउड मॉडेल. एक वास्तविक कोडिंग टास्क.
निकाल स्पष्ट आहेत. ग्राहक उपकरणांवर (consumer hardware) एजेंटिक कोडिंग टास्कसाठी लोकल मॉडेल्स अजून तयार नाहीत.
मी Claude Sonnet 4 च्या विरुद्ध पाच लोकल मॉडेल्सची चाचणी घेतली. उद्दिष्ट एका ब्लॉग ॲडमिन पॅनेलसाठी टॅग मॅनेजर तयार करणे हे होते. मॉडेल्सना कोड लिहिणे, बिल्ड्स पास करणे, स्क्रीनशॉट्स घेणे आणि कमिट्स पुश करणे आवश्यक होते.
निकाल:
• Sonnet 4 (Cloud): पूर्ण झाले. 4 कमिट्स. 10 मिनिटे. मानवी मदतीशिवाय. • Qwen3-Coder 30B (Local): अंशतः. 1 कमिट. काम केले पण गोंधळलेले होते. • Qwen 3.6 35B (Local): अपयशी. बिल्ड पास झाले पण कधीही कमिट केले नाही. • Gemma 4 12B (Local): अपयशी. लूपमध्ये अडकले. • Hermes 4 14B (Local): अपयशी. तीच तीच चूक 13 वेळा केली. • Devstral 24B (Local): पूर्ण अपयश. टूल्स वापरू शकले नाहीत.
कार्यक्षमतेतील तफावत
फरक प्रचंड आहे. Sonnet 4 ने 19K टोकन्स वापरून काम पूर्ण केले. लोकल मॉडेल्सनी 1 दशलक्ष ते 4 दशलक्ष टोकन्स खर्च केले. ही कार्यक्षमतेतील 100x ते 200x ची तफावत आहे.
लोकल मॉडेल्स फक्त संथ नाहीत, तर त्यांना तर्कशक्तीमध्ये (reasoning) देखील अडचणी येतात. मला चार मुख्य समस्या आढळल्या:
- डिजनरेट लूप्स (Degenerate loops): मॉडेल्स तोच तोच चुकीचा कोड किंवा मजकूर डझनभर वेळा पुन्हा पुन्हा लिहितात.
- डिरेक्टरी अॅम्नेशिया (Directory amnesia): मॉडेल्स फाईल सिस्टममध्ये ते कुठे आहेत हे विसरून जातात.
- चुकीचे प्राधान्य (Poor prioritization): मॉडेल्स मुख्य ध्येय पूर्ण करण्याऐवजी किरकोळ कामांवर लक्ष केंद्रित करतात.
- स्व-निदान नाही (No self-diagnosis): डॉक्युमेंटेशन वाचण्याऐवजी मॉडेल्स तोच तोच अयशस्वी उपाय पुन्हा पुन्हा वापरण्याचा प्रयत्न करतात.
निष्कर्ष
लोकल मॉडेल्स चांगले दिसणारा कोड लिहू शकतात. पण शेवटच्या टप्प्यावर (last mile) ते अपयशी ठरतात. एजंट होण्यासाठी केवळ कोड जनरेशन पुरेसे नाही. त्यासाठी स्टेट मॅनेज करणे, चुका सुधारणे आणि कधी कोड शिप करायचा हे माहित असणे आवश्यक आहे.
Qwen3-Coder 30B हे एकमेव लक्ष देण्यासारखे लोकल मॉडेल आहे. त्याने खरोखरच एका ब्रँचवर चालणारा कोड पुश केला. एका सिंगल कंज्युमर GPU वर चालणाऱ्या मॉडेलसाठी, ही प्रगती आहे.
वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi