ماڈل مقابلہ: لوکل بمقابلہ کلاؤڈ کوڈنگ
پانچ لوکل ماڈلز۔ ایک کلاؤڈ ماڈل۔ ایک حقیقی کوڈنگ ٹاسک۔
نتائج واضح ہیں۔ لوکل ماڈلز کنزیومر ہارڈ ویئر پر ایجنٹک کوڈنگ ٹاسکس کے لیے تیار نہیں ہیں۔
میں نے Claude Sonnet 4 کے مقابلے میں پانچ لوکل ماڈلز کا تجربہ کیا۔ مقصد بلاگ ایڈمن پینل کے لیے ایک ٹیگ مینیجر بنانا تھا۔ ماڈلز کو کوڈ لکھنا، بلڈز پاس کرنا، اسکرین شاٹس لینا اور کمٹس پش کرنے تھے۔
نتائج:
• Sonnet 4 (Cloud): مکمل۔ 4 کمٹس۔ 10 منٹ۔ انسانی مدد کے بغیر۔ • Qwen3-Coder 30B (Local): جزوی۔ 1 کمٹ۔ کام کیا لیکن غیر منظم تھا۔ • Qwen 3.6 35B (Local): ناکام۔ بلڈ پاس کیا لیکن کبھی کمٹ نہیں کیا۔ • Gemma 4 12B (Local): ناکام۔ ایک لوپ میں پھنس گیا۔ • Hermes 4 14B (Local): ناکام۔ ایک ہی غلطی 13 بار دہرائی۔ • Devstral 24B (Local): مکمل ناکامی۔ ٹولز استعمال نہیں کر سکا۔
کارکردگی کا فرق
فرق بہت زیادہ ہے۔ Sonnet 4 نے 19K ٹوکنز استعمال کرتے ہوئے ٹاسک مکمل کیا۔ لوکل ماڈلز نے 1 ملین سے 4 ملین کے درمیان ٹوکنز استعمال کیے۔ یہ کارکردگی میں 100x سے 200x کا فرق ہے۔
لوکل ماڈلز صرف سست نہیں ہیں۔ انہیں منطقی سوچ (reasoning) میں بھی دشواری ہوتی ہے۔ میں نے چار اہم مسائل دیکھے:
- ڈیجنریٹ لوپس (Degenerate loops): ماڈلز ایک ہی غلط کوڈ یا متن درجنوں بار دہراتے ہیں۔
- ڈائریکٹری فراموشی (Directory amnesia): ماڈلز بھول جاتے ہیں کہ وہ فائل سسٹم میں کہاں ہیں۔
- ناقص ترجیحات (Poor prioritization): ماڈلز اصل مقصد کو مکمل کرنے کے بجائے معمولی کاموں پر توجہ دیتے ہیں۔
- خود تشخیص کی کمی (No self-diagnosis): ماڈلز دستاویزات (documentation) پڑھنے کے بجائے وہی ناکام حل بار بار آزماتے ہیں۔
حاصلِ کلام
لوکل ماڈلز ایسا کوڈ لکھ سکتے ہیں جو دیکھنے میں اچھا لگے۔ لیکن وہ آخری مرحلے پر ناکام ہو جاتے ہیں۔ ایک ایجنٹ بننے کے لیے کوڈ جنریشن سے زیادہ کی ضرورت ہوتی ہے۔ اس کے لیے اسٹیٹ (state) کو مینیج کرنا، غلطیوں کو ٹھیک کرنا، اور یہ جاننا ضروری ہے کہ کب کام مکمل (ship) کرنا ہے۔
Qwen3-Coder 30B واحد لوکل ماڈل ہے جس پر نظر رکھنا قابلِ توجہ ہے۔ اس نے واقعی ایک برانچ پر کام کرنے والا کوڈ پش کیا۔ ایک سنگل کنزیومر GPU پر چلنے والے ماڈل کے لیے، یہ ترقی ہے۔