تقابل مدلها: کدنویسی محلی در مقابل ابری
پنج مدل محلی. یک مدل ابری. یک وظیفه واقعی کدنویسی.
نتایج روشن است. مدلهای محلی برای وظایف کدنویسی عاملمحور (agentic) روی سختافزارهای مصرفکننده آماده نیستند.
من پنج مدل محلی را در برابر Claude Sonnet 4 آزمایش کردم. هدف، ساخت یک مدیریت برچسب (tag manager) برای پنل مدیریت وبلاگ بود. مدلها باید کد مینوشتند، بیلدها را با موفقیت میگذراندند، اسکرینشات میگرفتند و کامیتها را ارسال (push) میکردند.
نتایج:
• Sonnet 4 (ابری): کامل شد. ۴ کامیت. ۱۰ دقیقه. بدون هیچ کمک انسانی. • Qwen3-Coder 30B (محلی): ناقص. ۱ کامیت. کار کرد اما نامنظم بود. • Qwen 3.6 35B (محلی): شکست خورد. بیلد را رد کرد اما هرگز کامیت نکرد. • Gemma 4 12B (محلی): شکست خورد. در یک حلقه گیر کرد. • Hermes 4 14B (محلی): شکست خورد. همان خطا را ۱۳ بار تکرار کرد. • Devstral 24B (محلی): شکست کامل. نتوانست از ابزارها استفاده کند.
شکاف کارایی
تفاوت بسیار زیاد است. Sonnet 4 وظیفه را با استفاده از ۱۹ هزار توکن تمام کرد. مدلهای محلی بین ۱ میلیون تا ۴ میلیون توکن مصرف کردند. این یعنی شکاف کارایی ۱۰۰ تا ۲۰۰ برابری.
مدلهای محلی فقط کندتر نیستند؛ آنها در استدلال هم مشکل دارند. من چهار مشکل اصلی مشاهده کردم:
- حلقههای تکراری (Degenerate loops): مدلها یک کد یا متن اشتباه را دهها بار تکرار میکنند.
- فراموشی دایرکتوری: مدلها فراموش میکنند در کجای سیستم فایل هستند.
- اولویتبندی ضعیف: مدلها به جای اتمام هدف اصلی، روی وظایف جزئی تمرکز میکنند.
- عدم خودتشخیصی: مدلها به جای خواندن مستندات، همان اصلاحات شکستخورده را دوباره امتحان میکنند.
نتیجهگیری
مدلهای محلی میتوانند کدی بنویسند که خوب به نظر برسد، اما در مرحله نهایی شکست میخورند. «عامل» (agent) بودن چیزی فراتر از تولید کد است؛ عامل بودن مستلزم مدیریت وضعیت (state)، رفع خطاها و دانستن زمان مناسب برای ارسال محصول (ship) است.
Qwen3-Coder 30B تنها مدل محلی است که ارزش دنبال کردن دارد. این مدل واقعاً یک کدِ کارآمد را به یک شاخه (branch) ارسال کرد. برای مدلی که روی یک GPU معمولی اجرا میشود، این یک پیشرفت محسوب میشود.
انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi