تقابل مدل‌ها: کدنویسی محلی در برابر ابری

📅3 hours ago⏱2 min read

تقابل مدل‌ها: کدنویسی محلی در مقابل ابری

پنج مدل محلی. یک مدل ابری. یک وظیفه واقعی کدنویسی.

نتایج روشن است. مدل‌های محلی برای وظایف کدنویسی عامل‌محور (agentic) روی سخت‌افزارهای مصرف‌کننده آماده نیستند.

من پنج مدل محلی را در برابر Claude Sonnet 4 آزمایش کردم. هدف، ساخت یک مدیریت برچسب (tag manager) برای پنل مدیریت وبلاگ بود. مدل‌ها باید کد می‌نوشتند، بیلدها را با موفقیت می‌گذراندند، اسکرین‌شات می‌گرفتند و کامیت‌ها را ارسال (push) می‌کردند.

نتایج:

• Sonnet 4 (ابری): کامل شد. ۴ کامیت. ۱۰ دقیقه. بدون هیچ کمک انسانی. • Qwen3-Coder 30B (محلی): ناقص. ۱ کامیت. کار کرد اما نامنظم بود. • Qwen 3.6 35B (محلی): شکست خورد. بیلد را رد کرد اما هرگز کامیت نکرد. • Gemma 4 12B (محلی): شکست خورد. در یک حلقه گیر کرد. • Hermes 4 14B (محلی): شکست خورد. همان خطا را ۱۳ بار تکرار کرد. • Devstral 24B (محلی): شکست کامل. نتوانست از ابزارها استفاده کند.

شکاف کارایی

تفاوت بسیار زیاد است. Sonnet 4 وظیفه را با استفاده از ۱۹ هزار توکن تمام کرد. مدل‌های محلی بین ۱ میلیون تا ۴ میلیون توکن مصرف کردند. این یعنی شکاف کارایی ۱۰۰ تا ۲۰۰ برابری.

مدل‌های محلی فقط کندتر نیستند؛ آن‌ها در استدلال هم مشکل دارند. من چهار مشکل اصلی مشاهده کردم:

حلقه‌های تکراری (Degenerate loops): مدل‌ها یک کد یا متن اشتباه را ده‌ها بار تکرار می‌کنند.
فراموشی دایرکتوری: مدل‌ها فراموش می‌کنند در کجای سیستم فایل هستند.
اولویت‌بندی ضعیف: مدل‌ها به جای اتمام هدف اصلی، روی وظایف جزئی تمرکز می‌کنند.
عدم خودتشخیصی: مدل‌ها به جای خواندن مستندات، همان اصلاحات شکست‌خورده را دوباره امتحان می‌کنند.

نتیجه‌گیری

مدل‌های محلی می‌توانند کدی بنویسند که خوب به نظر برسد، اما در مرحله نهایی شکست می‌خورند. «عامل» (agent) بودن چیزی فراتر از تولید کد است؛ عامل بودن مستلزم مدیریت وضعیت (state)، رفع خطاها و دانستن زمان مناسب برای ارسال محصول (ship) است.

Qwen3-Coder 30B تنها مدل محلی است که ارزش دنبال کردن دارد. این مدل واقعاً یک کدِ کارآمد را به یک شاخه (branch) ارسال کرد. برای مدلی که روی یک GPU معمولی اجرا می‌شود، این یک پیشرفت محسوب می‌شود.

منبع: https://dev.to/carryologist/model-showdown-round-7-five-local-models-vs-one-cloud-model-on-a-real-coding-task-1ehj

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi

تقابل مدل‌ها: کدنویسی محلی در برابر ابری

Continue reading

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗮𝗿𝗲 𝗶𝗻 𝟮𝟬𝟮𝟲, 𝗯𝘂𝘁 𝘁𝗵𝗲 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝘀 𝗦𝘁𝘂𝗰𝗸 𝗶𝗻 𝟮𝟬𝟭𝟬

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗶𝗻 𝟮𝟬𝟮𝟲 𝗯𝘂𝘁 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝗻 𝟮𝟬𝟭𝟬

𝗥𝘂𝗻𝗻𝗶𝗻𝗴 𝗧𝘄𝗼 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗢𝗻𝗲 𝗚𝗣𝗨: 𝗧𝗵𝗲 𝗠𝗮𝘁𝗵 𝗕𝗲𝗵𝗶𝗻𝗱 𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀

𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀

𝗩𝗶𝗯𝗲 𝗖𝗼𝗱𝗶𝗻𝗴 𝟭𝟬𝟭: 𝗔 𝗚𝘂𝗶𝗱𝗲 𝗳𝗼𝗿 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿𝘀