การประชันโมเดล: Local vs. Cloud Coding

โมเดล Local 5 ตัว โมเดล Cloud 1 ตัว กับงานเขียนโค้ดจริง 1 งาน

ผลลัพธ์นั้นชัดเจน โมเดล Local ยังไม่พร้อมสำหรับงานเขียนโค้ดแบบ Agentic บนฮาร์ดแวร์ระดับผู้ใช้งานทั่วไป

ผมได้ทดสอบโมเดล Local 5 ตัว เปรียบเทียบกับ Claude Sonnet 4 โดยมีเป้าหมายคือการสร้าง Tag Manager สำหรับแผงควบคุมหลังบ้านของบล็อก (blog admin panel) โมเดลเหล่านี้ต้องเขียนโค้ด, ผ่านการ Build, แคปหน้าจอ และ Push commit ให้ได้

ผลลัพธ์:

• Sonnet 4 (Cloud): สำเร็จสมบูรณ์ 4 commits ใช้เวลา 10 นาที โดยไม่ต้องมีมนุษย์ช่วยเลย • Qwen3-Coder 30B (Local): สำเร็จบางส่วน 1 commit ทำงานได้แต่โค้ดไม่เรียบร้อย • Qwen 3.6 35B (Local): ล้มเหลว ผ่านการ Build แต่ไม่มีการ Commit • Gemma 4 12B (Local): ล้มเหลว ติดอยู่ในลูป (loop) • Hermes 4 14B (Local): ล้มเหลว ทำผิดพลาดซ้ำเดิมถึง 13 ครั้ง • Devstral 24B (Local): ล้มเหลวโดยสิ้นเชิง ไม่สามารถใช้เครื่องมือ (tools) ได้

ช่องว่างด้านประสิทธิภาพ

ความแตกต่างนั้นมหาศาล Sonnet 4 ทำงานเสร็จโดยใช้เพียง 19K tokens ในขณะที่โมเดล Local ใช้ไปถึง 1 ล้าน ถึง 4 ล้าน tokens นั่นหมายถึงช่องว่างด้านประสิทธิภาพที่ต่างกันถึง 100 ถึง 200 เท่า

โมเดล Local ไม่ได้แค่ช้ากว่าเท่านั้น แต่ยังประสบปัญหาด้านการใช้เหตุผล (reasoning) อีกด้วย ผมพบปัญหาหลักๆ 4 ประการ:

บทสรุป

โมเดล Local อาจเขียนโค้ดที่ดูดีได้ แต่พวกมันมักจะล้มเหลวในช่วงโค้งสุดท้าย (last mile) การเป็น Agent ต้องใช้มากกว่าแค่การสร้างโค้ด (code generation) แต่มันต้องอาศัยการจัดการสถานะ (managing state), การแก้ไขข้อผิดพลาด และการรู้ว่าเมื่อไหร่ควรจะส่งงาน (ship)

Qwen3-Coder 30B เป็นโมเดล Local เพียงตัวเดียวที่น่าจับตามอง เพราะมันสามารถ Push โค้ดที่ใช้งานได้ไปยัง Branch จริงๆ สำหรับโมเดลที่รันบน GPU ระดับผู้ใช้งานทั่วไปเพียงตัวเดียว ถือว่ามีความก้าวหน้าอย่างมาก

แหล่งที่มา: https://dev.to/carryologist/model-showdown-round-7-five-local-models-vs-one-cloud-model-on-a-real-coding-task-1ehj

ชุมชนแห่งการเรียนรู้เพิ่มเติม: https://t.me/GyaanSetuAi