𝗠𝗼𝗱𝗲𝗹 𝗦𝗵𝗼𝘄𝗱𝗼𝘄𝗻: 𝗟𝗼𝗰𝗮𝗹 𝘃𝘀. 𝗖𝗹𝗼𝘂𝗱 𝗖𝗼𝗱𝗶𝗻𝗴

📅3 hours ago⏱2 min read

𝗠𝗼𝗱𝗲𝗹 𝗦𝗵𝗼𝘄𝗱𝗼𝘄𝗻: 𝗖𝗼𝗱𝗶𝗻𝗴 𝗟𝗼𝗸𝗮𝗹 𝗹𝗮𝘄𝗮𝗻 𝗖𝗹𝗼𝘂𝗱

Lima model lokal. Satu model cloud. Satu tugasan pengekodan sebenar.

Keputusannya jelas. Model lokal belum bersedia untuk tugasan pengekodan ejen (agentic coding) pada perkakasan pengguna.

Saya menguji lima model lokal berbanding Claude Sonnet 4. Matlamatnya adalah untuk membina pengurus tag bagi panel admin blog. Model-model tersebut perlu menulis kod, melepasi proses binaan (build), mengambil tangkapan skrin, dan melakukan 'push commit'.

Keputusan:

• Sonnet 4 (Cloud): Selesai. 4 commit. 10 minit. Tanpa bantuan manusia. • Qwen3-Coder 30B (Local): Separa. 1 commit. Berfungsi tetapi tidak kemas. • Qwen 3.6 35B (Local): Gagal. Melepasi binaan tetapi tidak pernah melakukan commit. • Gemma 4 12B (Local): Gagal. Terperangkap dalam gelung (loop). • Hermes 4 14B (Local): Gagal. Mengulangi ralat yang sama sebanyak 13 kali. • Devstral 24B (Local): Kegagalan total. Tidak dapat menggunakan alatan (tools).

Jurang Kecekapan

Perbezaannya sangat besar. Sonnet 4 menyelesaikan tugasan menggunakan 19K token. Model lokal pula menggunakan antara 1 juta hingga 4 juta token. Itu adalah jurang kecekapan sebanyak 100x hingga 200x.

Model lokal bukan sekadar lebih lambat. Ia juga bergelut dengan penaakulan. Saya melihat empat isu utama:

Gelung degeneratif: Model mengulangi kod atau teks yang salah yang sama berpuluh-puluh kali.
Amnesia direktori: Model terlupa kedudukan mereka dalam sistem fail.
Keutamaan yang lemah: Model memberi tumpuan kepada tugasan kecil dan bukannya menyelesaikan matlamat utama.
Tiada diagnosis kendiri: Model mencuba pembaikan yang gagal yang sama berulang kali dan bukannya membaca dokumentasi.

Kesimpulan

Model lokal boleh menulis kod yang kelihatan bagus. Namun, mereka gagal pada peringkat akhir (the last mile). Menjadi seorang ejen memerlukan lebih daripada sekadar penjanaan kod. Ia memerlukan pengurusan keadaan (state), membaiki ralat, dan mengetahui bila masanya untuk melancarkan (ship) hasil kerja.

Qwen3-Coder 30B adalah satu-satunya model lokal yang berbaloi untuk diperhatikan. Ia benar-benar melakukan 'push' kod yang berfungsi ke satu 'branch'. Bagi model yang berjalan pada satu GPU pengguna, itu adalah satu kemajuan.

Sumber: https://dev.to/carryologist/model-showdown-round-7-five-local-models-vs-one-cloud-model-on-a-real-coding-task-1ehj

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi

𝗠𝗼𝗱𝗲𝗹 𝗦𝗵𝗼𝘄𝗱𝗼𝘄𝗻: 𝗟𝗼𝗰𝗮𝗹 𝘃𝘀. 𝗖𝗹𝗼𝘂𝗱 𝗖𝗼𝗱𝗶𝗻𝗴

Continue reading

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗮𝗿𝗲 𝗶𝗻 𝟮𝟬𝟮𝟲, 𝗯𝘂𝘁 𝘁𝗵𝗲 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝘀 𝗦𝘁𝘂𝗰𝗸 𝗶𝗻 𝟮𝟬𝟭𝟬

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗶𝗻 𝟮𝟬𝟮𝟲 𝗯𝘂𝘁 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝗻 𝟮𝟬𝟭𝟬

Menjalankan Dua Model pada Satu GPU: Matematik di Sebalik LLM Tempatan

𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀

𝗩𝗶𝗯𝗲 𝗖𝗼𝗱𝗶𝗻𝗴 𝟭𝟬𝟭: 𝗔 𝗚𝘂𝗶𝗱𝗲 𝗳𝗼𝗿 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿𝘀