تقابل مدل‌ها: کدنویسی محلی در مقابل ابری

پنج مدل محلی. یک مدل ابری. یک وظیفه واقعی کدنویسی.

نتایج روشن است. مدل‌های محلی برای وظایف کدنویسی عامل‌محور (agentic) روی سخت‌افزارهای مصرف‌کننده آماده نیستند.

من پنج مدل محلی را در برابر Claude Sonnet 4 آزمایش کردم. هدف، ساخت یک مدیریت برچسب (tag manager) برای پنل مدیریت وبلاگ بود. مدل‌ها باید کد می‌نوشتند، بیلدها را با موفقیت می‌گذراندند، اسکرین‌شات می‌گرفتند و کامیت‌ها را ارسال (push) می‌کردند.

نتایج:

• Sonnet 4 (ابری): کامل شد. ۴ کامیت. ۱۰ دقیقه. بدون هیچ کمک انسانی. • Qwen3-Coder 30B (محلی): ناقص. ۱ کامیت. کار کرد اما نامنظم بود. • Qwen 3.6 35B (محلی): شکست خورد. بیلد را رد کرد اما هرگز کامیت نکرد. • Gemma 4 12B (محلی): شکست خورد. در یک حلقه گیر کرد. • Hermes 4 14B (محلی): شکست خورد. همان خطا را ۱۳ بار تکرار کرد. • Devstral 24B (محلی): شکست کامل. نتوانست از ابزارها استفاده کند.

شکاف کارایی

تفاوت بسیار زیاد است. Sonnet 4 وظیفه را با استفاده از ۱۹ هزار توکن تمام کرد. مدل‌های محلی بین ۱ میلیون تا ۴ میلیون توکن مصرف کردند. این یعنی شکاف کارایی ۱۰۰ تا ۲۰۰ برابری.

مدل‌های محلی فقط کندتر نیستند؛ آن‌ها در استدلال هم مشکل دارند. من چهار مشکل اصلی مشاهده کردم:

نتیجه‌گیری

مدل‌های محلی می‌توانند کدی بنویسند که خوب به نظر برسد، اما در مرحله نهایی شکست می‌خورند. «عامل» (agent) بودن چیزی فراتر از تولید کد است؛ عامل بودن مستلزم مدیریت وضعیت (state)، رفع خطاها و دانستن زمان مناسب برای ارسال محصول (ship) است.

Qwen3-Coder 30B تنها مدل محلی است که ارزش دنبال کردن دارد. این مدل واقعاً یک کدِ کارآمد را به یک شاخه (branch) ارسال کرد. برای مدلی که روی یک GPU معمولی اجرا می‌شود، این یک پیشرفت محسوب می‌شود.

منبع: https://dev.to/carryologist/model-showdown-round-7-five-local-models-vs-one-cloud-model-on-a-real-coding-task-1ehj

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi