קרב מודלים: תכנות מקומי מול ענן
חמישה מודלים מקומיים. מודל ענן אחד. משימת תכנות אחת אמיתית.
התוצאות ברורות. מודלים מקומיים אינם מוכנים למשימות תכנות סוכנותיות (agentic) על חומרה ביתית.
בחנתי חמישה מודלים מקומיים מול Claude Sonnet 4. המטרה הייתה לבנות מנהל תגיות (tag manager) עבור פאנל ניהול של בלוג. המודלים היו צריכים לכתוב קוד, לעבור תהליכי build, לצלם מסך ולבצע commits.
התוצאות:
• Sonnet 4 (ענן): הושלם. 4 commits. 10 דקות. אפס עזרה אנושית. • Qwen3-Coder 30B (מקומי): חלקי. 1 commit. עבד אך היה מבולגן. • Qwen 3.6 35B (מקומי): נכשל. עבר את ה-build אך מעולם לא ביצע commit. • Gemma 4 12B (מקומי): נכשל. נתקע בלולאה. • Hermes 4 14B (מקומי): נכשל. חזר על אותה שגיאה 13 פעמים. • Devstral 24B (מקומי): כישלון מוחלט. לא הצליח להשתמש בכלים.
פער היעילות
ההבדל הוא עצום. Sonnet 4 סיים את המשימה תוך שימוש ב-19K טוקנים. המודלים המקומיים שרפו בין מיליון ל-4 מיליון טוקנים. זהו פער של פי 100 עד פי 200 ביעילות.
מודלים מקומיים הם לא רק איטיים יותר. הם מתקשים בהסקה (reasoning). זיהיתי ארבע בעיות עיקריות:
- לולאות דגנרטיביות: מודלים חוזרים על אותו קוד או טקסט שגוי עשרות פעמים.
- אמנזיית ספריות (Directory amnesia): מודלים שוכחים איפה הם נמצאים במערכת הקבצים.
- תיעדוף לקוי: מודלים מתמקדים במשימות משניות במקום לסיים את המטרה העיקרית.
- חוסר באבחון עצמי: מודלים מנסים את אותו תיקון שנכשל במקום לקרוא תיעוד.
השורה התחתונה
מודלים מקומיים יכולים לכתוב קוד שנראה טוב. הם נכשלים בשלב הסופי (the last mile). להיות סוכן (agent) דורש יותר מיצירת קוד. זה דורש ניהול מצב (state), תיקון שגיאות וידיעה מתי לשחרר (ship).
Qwen3-Coder 30B הוא המודל המקומי היחיד ששווה לעקוב אחריו. הוא באמת דחף קוד עובד לענף (branch). עבור מודל שרץ על כרטיס מסך (GPU) ביתי בודד, זוהי התקדמות.
קהילת למידה אופציונלית: https://t.me/GyaanSetuAi