મોડેલ શોડાઉન: લોકલ વિરુદ્ધ ક્લાઉડ કોડિંગ
પાંચ લોકલ મોડેલ્સ. એક ક્લાઉડ મોડેલ. એક વાસ્તવિક કોડિંગ કાર્ય.
પરિણામો સ્પષ્ટ છે. કન્ઝ્યુમર હાર્ડવેર પર એજન્ટિક કોડિંગ કાર્યો માટે લોકલ મોડેલ્સ હજુ તૈયાર નથી.
મેં Claude Sonnet 4 સામે પાંચ લોકલ મોડેલ્સનું પરીક્ષણ કર્યું. ધ્યેય બ્લોગ એડમિન પેનલ માટે ટેગ મેનેજર બનાવવાનો હતો. મોડેલ્સ માટે કોડ લખવો, બિલ્ડ પાસ કરવી, સ્ક્રીનશોટ લેવા અને કમિટ્સ પુશ કરવા જરૂરી હતા.
પરિણામો:
• Sonnet 4 (Cloud): પૂર્ણ. 4 કમિટ્સ. 10 મિનિટ. શૂન્ય માનવ મદદ. • Qwen3-Coder 30B (Local): આંશિક. 1 કમિટ. કામ કર્યું પણ અસ્તવ્યસ્ત હતું. • Qwen 3.6 35B (Local): નિષ્ફળ. બિલ્ડ પાસ કરી પરંતુ ક્યારેય કમિટ કર્યું નહીં. • Gemma 4 12B (Local): નિષ્ફળ. લૂપમાં ફસાઈ ગયું. • Hermes 4 14B (Local): નિષ્ફળ. 13 વખત એક જ ભૂલ દોહરાવી. • Devstral 24B (Local): સંપૂર્ણ નિષ્ફળતા. ટૂલ્સનો ઉપયોગ કરી શક્યું નહીં.
કાર્યક્ષમતાનો તફાવત (The Efficiency Gap)
તફાવત ઘણો મોટો છે. Sonnet 4 એ 19K ટોકન્સનો ઉપયોગ કરીને કાર્ય પૂર્ણ કર્યું. લોકલ મોડેલ્સે 1 મિલિયનથી 4 મિલિયન ટોકન્સનો વપરાશ કર્યો. તે કાર્યક્ષમતામાં 100x થી 200x નો તફાવત છે.
લોકલ મોડેલ્સ માત્ર ધીમા જ નથી. તેઓ તર્ક (reasoning) કરવામાં પણ સંઘર્ષ કરે છે. મેં ચાર મુખ્ય સમસ્યાઓ જોઈ:
- ડિજનરેટ લૂપ્સ (Degenerate loops): મોડેલ્સ ડઝનબંધ વખત એક જ ખોટો કોડ અથવા ટેક્સ્ટ દોહરાવે છે.
- ડિરેક્ટરી એમ્ને