मॉडेल शोडाउन: लोकल विरुद्ध क्लाउड कोडिंग

📅3 hours ago⏱2 min read

मॉडेल शोडाउन: लोकल विरुद्ध क्लाउड कोडिंग

पाच लोकल मॉडेल्स. एक क्लाउड मॉडेल. एक वास्तविक कोडिंग टास्क.

निकाल स्पष्ट आहेत. ग्राहक उपकरणांवर (consumer hardware) एजेंटिक कोडिंग टास्कसाठी लोकल मॉडेल्स अजून तयार नाहीत.

मी Claude Sonnet 4 च्या विरुद्ध पाच लोकल मॉडेल्सची चाचणी घेतली. उद्दिष्ट एका ब्लॉग ॲडमिन पॅनेलसाठी टॅग मॅनेजर तयार करणे हे होते. मॉडेल्सना कोड लिहिणे, बिल्ड्स पास करणे, स्क्रीनशॉट्स घेणे आणि कमिट्स पुश करणे आवश्यक होते.

निकाल:

• Sonnet 4 (Cloud): पूर्ण झाले. 4 कमिट्स. 10 मिनिटे. मानवी मदतीशिवाय. • Qwen3-Coder 30B (Local): अंशतः. 1 कमिट. काम केले पण गोंधळलेले होते. • Qwen 3.6 35B (Local): अपयशी. बिल्ड पास झाले पण कधीही कमिट केले नाही. • Gemma 4 12B (Local): अपयशी. लूपमध्ये अडकले. • Hermes 4 14B (Local): अपयशी. तीच तीच चूक 13 वेळा केली. • Devstral 24B (Local): पूर्ण अपयश. टूल्स वापरू शकले नाहीत.

कार्यक्षमतेतील तफावत

फरक प्रचंड आहे. Sonnet 4 ने 19K टोकन्स वापरून काम पूर्ण केले. लोकल मॉडेल्सनी 1 दशलक्ष ते 4 दशलक्ष टोकन्स खर्च केले. ही कार्यक्षमतेतील 100x ते 200x ची तफावत आहे.

लोकल मॉडेल्स फक्त संथ नाहीत, तर त्यांना तर्कशक्तीमध्ये (reasoning) देखील अडचणी येतात. मला चार मुख्य समस्या आढळल्या:

डिजनरेट लूप्स (Degenerate loops): मॉडेल्स तोच तोच चुकीचा कोड किंवा मजकूर डझनभर वेळा पुन्हा पुन्हा लिहितात.
डिरेक्टरी अ‍ॅम्नेशिया (Directory amnesia): मॉडेल्स फाईल सिस्टममध्ये ते कुठे आहेत हे विसरून जातात.
चुकीचे प्राधान्य (Poor prioritization): मॉडेल्स मुख्य ध्येय पूर्ण करण्याऐवजी किरकोळ कामांवर लक्ष केंद्रित करतात.
स्व-निदान नाही (No self-diagnosis): डॉक्युमेंटेशन वाचण्याऐवजी मॉडेल्स तोच तोच अयशस्वी उपाय पुन्हा पुन्हा वापरण्याचा प्रयत्न करतात.

निष्कर्ष

लोकल मॉडेल्स चांगले दिसणारा कोड लिहू शकतात. पण शेवटच्या टप्प्यावर (last mile) ते अपयशी ठरतात. एजंट होण्यासाठी केवळ कोड जनरेशन पुरेसे नाही. त्यासाठी स्टेट मॅनेज करणे, चुका सुधारणे आणि कधी कोड शिप करायचा हे माहित असणे आवश्यक आहे.

Qwen3-Coder 30B हे एकमेव लक्ष देण्यासारखे लोकल मॉडेल आहे. त्याने खरोखरच एका ब्रँचवर चालणारा कोड पुश केला. एका सिंगल कंज्युमर GPU वर चालणाऱ्या मॉडेलसाठी, ही प्रगती आहे.

स्रोत: https://dev.to/carryologist/model-showdown-round-7-five-local-models-vs-one-cloud-model-on-a-real-coding-task-1ehj

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

मॉडेल शोडाउन: लोकल विरुद्ध क्लाउड कोडिंग

Continue reading

लोकल LLMs २०२६ मध्ये आहेत, पण डेव्हलपरचा अनुभव २०१० मध्ये अडकलेला आहे

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗶𝗻 𝟮𝟬𝟮𝟲 𝗯𝘂𝘁 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝗻 𝟮𝟬𝟭𝟬

𝗥𝘂𝗻𝗻𝗶𝗻𝗴 𝗧𝘄𝗼 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗢𝗻𝗲 𝗚𝗣𝗨: 𝗧𝗵𝗲 𝗠𝗮𝘁𝗵 𝗕𝗲𝗵𝗶𝗻𝗱 𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀

𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀

𝗩𝗶𝗯𝗲 𝗖𝗼𝗱𝗶𝗻𝗴 𝟭𝟬𝟭: 𝗔 𝗚𝘂𝗶𝗱𝗲 𝗳𝗼𝗿 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿𝘀