Modell-Showdown: Lokales vs. Cloud-Coding

Fünf lokale Modelle. Ein Cloud-Modell. Eine echte Coding-Aufgabe.

Die Ergebnisse sind eindeutig. Lokale Modelle sind auf Consumer-Hardware noch nicht bereit für agentische Coding-Aufgaben.

Ich habe fünf lokale Modelle gegen Claude Sonnet 4 getestet. Das Ziel war der Bau eines Tag-Managers für ein Blog-Admin-Panel. Die Modelle mussten Code schreiben, Builds bestehen, Screenshots erstellen und Commits pushen.

The Results:

• Sonnet 4 (Cloud): Abgeschlossen. 4 Commits. 10 Minuten. Null menschliche Hilfe. • Qwen3-Coder 30B (Local): Teilweise. 1 Commit. Hat funktioniert, war aber unordentlich. • Qwen 3.6 35B (Local): Fehlgeschlagen. Build bestanden, aber nie committet. • Gemma 4 12B (Local): Fehlgeschlagen. In einer Schleife festgefahren. • Hermes 4 14B (Local): Fehlgeschlagen. Denselben Fehler 13 Mal wiederholt. • Devstral 24B (Local): Totalausfall. Konnte keine Tools nutzen.

The Efficiency Gap

Der Unterschied ist gewaltig. Sonnet 4 hat die Aufgabe mit 19K Token abgeschlossen. Die lokalen Modelle haben zwischen 1 Million und 4 Millionen Token verbraucht. Das ist eine 100- bis 200-fache Differenz in der Effizienz.

Lokale Modelle sind nicht nur langsamer. Sie haben Probleme mit dem logischen Denken. Ich habe vier Hauptprobleme festgestellt: