Modell-Showdown: Lokales vs. Cloud-Coding
Fünf lokale Modelle. Ein Cloud-Modell. Eine echte Coding-Aufgabe.
Die Ergebnisse sind eindeutig. Lokale Modelle sind auf Consumer-Hardware noch nicht bereit für agentische Coding-Aufgaben.
Ich habe fünf lokale Modelle gegen Claude Sonnet 4 getestet. Das Ziel war der Bau eines Tag-Managers für ein Blog-Admin-Panel. Die Modelle mussten Code schreiben, Builds bestehen, Screenshots erstellen und Commits pushen.
The Results:
• Sonnet 4 (Cloud): Abgeschlossen. 4 Commits. 10 Minuten. Null menschliche Hilfe. • Qwen3-Coder 30B (Local): Teilweise. 1 Commit. Hat funktioniert, war aber unordentlich. • Qwen 3.6 35B (Local): Fehlgeschlagen. Build bestanden, aber nie committet. • Gemma 4 12B (Local): Fehlgeschlagen. In einer Schleife festgefahren. • Hermes 4 14B (Local): Fehlgeschlagen. Denselben Fehler 13 Mal wiederholt. • Devstral 24B (Local): Totalausfall. Konnte keine Tools nutzen.
The Efficiency Gap
Der Unterschied ist gewaltig. Sonnet 4 hat die Aufgabe mit 19K Token abgeschlossen. Die lokalen Modelle haben zwischen 1 Million und 4 Millionen Token verbraucht. Das ist eine 100- bis 200-fache Differenz in der Effizienz.
Lokale Modelle sind nicht nur langsamer. Sie haben Probleme mit dem logischen Denken. Ich habe vier Hauptprobleme festgestellt:
- Degenerative Schleifen: Modelle wiederholen denselben falschen Code oder Text dutzendfach.
- Verzeichnis-Amnesie: Modelle vergessen, wo sie sich im Dateisystem befinden.
- Schlechte Priorisierung: Modelle konzentrieren sich auf unwichtige Aufgaben