𝗠𝗼𝗱𝗲𝗹 𝗦𝗵𝗼𝘄𝗱𝗼𝘄𝗻: 𝗟𝗼𝗰𝗮𝗹 𝘃𝘀. 𝗖𝗹𝗼𝘂𝗱 𝗖𝗼𝗱𝗶𝗻𝗴

അഞ്ച് ലോക്കൽ മോഡലുകൾ. ഒരു ക്ലൗഡ് മോഡൽ. ഒരു യഥാർത്ഥ കോഡിംഗ് ടാസ്ക്.

ഫലങ്ങൾ വ്യക്തമാണ്. ഉപഭോക്താക്കളുടെ സാധാരണ ഹാർഡ്‌വെയറിൽ (consumer hardware) ഏജന്റിക് കോഡിംഗ് ടാസ്ക്കുകൾ ചെയ്യാൻ ലോക്കൽ മോഡലുകൾ ഇനിയും സജ്ജമല്ല.

ഞാൻ അഞ്ച് ലോക്കൽ മോഡലുകളെ Claude Sonnet 4-മായി താരതമ്യം ചെയ്തു. ഒരു ബ്ലോഗ് അഡ്മിൻ പാനലിനായി ഒരു ടാഗ് മാനേജർ നിർമ്മിക്കുക എന്നതായിരുന്നു ലക്ഷ്യം. കോഡ് എഴുതുക, ബിൽഡുകൾ പാസ്സ് ചെയ്യുക, സ്ക്രീൻഷോട്ടുകൾ എടുക്കുക, കമ്മറ്റുകൾ പുഷ് ചെയ്യുക എന്നിവയാണ് മോഡലുകൾ ചെയ്യേണ്ടിയിരുന്നത്.

ഫലങ്ങൾ:

• Sonnet 4 (Cloud): പൂർത്തിയായി. 4 കമ്മറ്റുകൾ. 10 മിനിറ്റ്. മനുഷ്യസഹായം ആവശ്യമില്ലായിരുന്നു. • Qwen3-Coder 30B (Local): ഭാഗികമായി മാത്രം. 1 കമ്മറ്റ്. പ്രവർത്തിച്ചു, പക്ഷേ അത്ര കൃത്യമല്ലായിരുന്നു. • Qwen 3.6 35B (Local): പരാജയപ്പെട്ടു. ബിൽഡ് പാസ്സാക്കിയെങ്കിലും കമ്മറ്റ് ചെയ്തില്ല. • Gemma 4 12B (Local): പരാജയപ്പെട്ടു. ഒരു ലൂപ്പിൽ കുടുങ്ങിപ്പോയി. • Hermes 4 14B (Local): പരാജയപ്പെട്ടു. ഒരേ തെറ്റ് തന്നെ 13 തവണ ആവർത്തിച്ചു. • Devstral 24B (Local): പൂർണ്ണ പരാജയം. ടൂളുകൾ ഉപയോഗിക്കാൻ കഴിഞ്ഞില്ല.

കാര്യക്ഷമതയിലെ വ്യത്യാസം

വ്യത്യാസം വളരെ വലുതാണ്. Sonnet 4 ഈ ടാസ്ക് പൂർത്തിയാക്കാൻ 19K ടോക്കണുകൾ ഉപയോഗിച്ചു. എന്നാൽ ലോക്കൽ മോഡലുകൾ 1 മില്യൺ മുതൽ 4 മില്യൺ വരെ ടോക്കണുകൾ ഉപയോഗിച്ചു. ഇത് കാര്യക്ഷമതയിൽ 100 മുതൽ 200 മടങ്ങ് വരെ വ്യത്യാസമാണ് കാണിക്കുന്നത്.

ലോക്കൽ മോഡലുകൾ വേഗത കുറഞ്ഞവ മാത്രമല്ല. അവയ്ക്ക് യുക്തിസഹമായി ചിന്തിക്കാനും (reasoning) ബുദ്ധിമുട്ടാണ്. ഞാൻ പ്രധാനമായും നാല് പ്രശ്നങ്ങൾ ശ്രദ്ധിച്ചു:

പാഠം

ലോക്കൽ മോഡലുകൾക്ക് കാണാൻ നല്ല കോഡ് എഴുതാൻ കഴിയും. എന്നാൽ അവസാന ഘട്ടത്തിൽ അവ പരാജയപ്പെടുന്നു. ഒരു ഏജന്റ് ആകുക എന്നത് കോഡ് ജനറേഷനേക്കാൾ ഉപരിയായി സ്റ്റേറ്റ് മാനേജ് ചെയ്യുക, തെറ്റുകൾ തിരുത്തുക, എപ്പോൾ ഫൈനൽ റിസൾട്ട് നൽകണം എന്ന് അറിയുക എന്നിവയെല്ലാം ഉൾക്കൊള്ളുന്ന ഒന്നാണ്.

ശ്രദ്ധിക്കേണ്ട ഏക ലോക്കൽ മോഡൽ Qwen3-Coder 30B ആണ്. ഇത് പ്രവർത്തിക്കുന്ന കോഡ് ഒരു ബ്രാഞ്ചിലേക്ക് പുഷ് ചെയ്തു. ഒരു സാധാരണ കൺസ്യൂമർ ജിപിയുവിൽ (consumer GPU) പ്രവർത്തിക്കുന്ന ഒരു മോഡലിനെ സംബന്ധിച്ചിടത്തോളം ഇത് വലിയ പുരോഗതിയാണ്.

സ്രോതസ്സ്: https://dev.to/carryologist/model-showdown-round-7-five-local-models-vs-one-cloud-model-on-a-real-coding-task-1ehj

ഓപ്ഷണൽ ലേണിംഗ് കമ്മ്യൂണിറ്റി: https://t.me/GyaanSetuAi