𝗠𝗼𝗱𝗲𝗹 𝗦𝗵𝗼𝘄𝗱𝗼𝘄𝗻: 𝗖𝗼𝗱𝗶𝗻𝗴 𝗟𝗼𝗸𝗮𝗹 𝗹𝗮𝘄𝗮𝗻 𝗖𝗹𝗼𝘂𝗱
Lima model lokal. Satu model cloud. Satu tugasan pengekodan sebenar.
Keputusannya jelas. Model lokal belum bersedia untuk tugasan pengekodan ejen (agentic coding) pada perkakasan pengguna.
Saya menguji lima model lokal berbanding Claude Sonnet 4. Matlamatnya adalah untuk membina pengurus tag bagi panel admin blog. Model-model tersebut perlu menulis kod, melepasi proses binaan (build), mengambil tangkapan skrin, dan melakukan 'push commit'.
Keputusan:
• Sonnet 4 (Cloud): Selesai. 4 commit. 10 minit. Tanpa bantuan manusia. • Qwen3-Coder 30B (Local): Separa. 1 commit. Berfungsi tetapi tidak kemas. • Qwen 3.6 35B (Local): Gagal. Melepasi binaan tetapi tidak pernah melakukan commit. • Gemma 4 12B (Local): Gagal. Terperangkap dalam gelung (loop). • Hermes 4 14B (Local): Gagal. Mengulangi ralat yang sama sebanyak 13 kali. • Devstral 24B (Local): Kegagalan total. Tidak dapat menggunakan alatan (tools).
Jurang Kecekapan
Perbezaannya sangat besar. Sonnet 4 menyelesaikan tugasan menggunakan 19K token. Model lokal pula menggunakan antara 1 juta hingga 4 juta token. Itu adalah jurang kecekapan sebanyak 100x hingga 200x.
Model lokal bukan sekadar lebih lambat. Ia juga bergelut dengan penaakulan. Saya melihat empat isu utama:
- Gelung degeneratif: Model mengulangi kod atau teks yang salah yang sama berpuluh-puluh kali.
- Amnesia direktori: Model terlupa kedudukan mereka dalam sistem fail.
- Keutamaan yang lemah: Model memberi tumpuan kepada tugasan kecil dan bukannya menyelesaikan matlamat utama.
- Tiada diagnosis kendiri: Model mencuba pembaikan yang gagal yang sama berulang kali dan bukannya membaca dokumentasi.
Kesimpulan
Model lokal boleh menulis kod yang kelihatan bagus. Namun, mereka gagal pada peringkat akhir (the last mile). Menjadi seorang ejen memerlukan lebih daripada sekadar penjanaan kod. Ia memerlukan pengurusan keadaan (state), membaiki ralat, dan mengetahui bila masanya untuk melancarkan (ship) hasil kerja.
Qwen3-Coder 30B adalah satu-satunya model lokal yang berbaloi untuk diperhatikan. Ia benar-benar melakukan 'push' kod yang berfungsi ke satu 'branch'. Bagi model yang berjalan pada satu GPU pengguna, itu adalah satu kemajuan.
Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi