𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀

📅2 hours ago⏱1 min read

میں نے 5 کوڈنگ ٹاسک کے ذریعے 10 AI ماڈلز کا تجربہ کیا

میں نے 2026 کے لیے بہترین کوڈنگ AI ماڈلز تلاش کرنے کے لیے تین روزہ بینچ مارک (benchmark) کیا۔ میں نے 5 مختلف کوڈنگ ٹاسک کے ذریعے 10 ماڈلز کا تجربہ کیا۔ میں یہ دیکھنا چاہتا تھا کہ کیا زیادہ قیمت بہتر کوڈ کی طرف لے جاتی ہے۔

میں نے 50 اسکور شدہ تعاملات (interactions) کا استعمال کیا۔ میں نے درستگی، کوڈ کے معیار، دستاویزات (documentation) اور ایج کیسز (edge cases) کا جائزہ لیا۔

میرے آزمائے گئے ماڈلز:

DeepSeek V4 Flash ($0.25)
DeepSeek Coder ($0.25)
Qwen3-Coder-30B ($0.35)
DeepSeek-R1 ($2.50)
Kimi K2.5 ($3.00)
(اور 5 دیگر)

نتائج:

Qwen3-Coder-30B: 8.8 اسکور ($0.35)
DeepSeek V4 Flash: 8.7 اسکور ($0.25)
DeepSeek Coder: 8.6 اسکور ($0.25)
DeepSeek-R1: 9.4 اسکور ($2.50)
Kimi K2.5: 9.0 اسکور ($3.00)

اہم نتائج:

قیمت کا مطلب معیار نہیں ہے۔ قیمت اور اسکور کے درمیان تعلق بہت کمزور ہے۔
آپ مہنگے ماڈلز کے لیے لگژری ٹیکس ادا کرتے ہیں۔ Kimi K2.5 کی قیمت DeepSeek V4 Flash سے 12 گنا زیادہ ہے لیکن اس کا اسکور صرف 0.3 پوائنٹس زیادہ ہے۔
مشکل کاموں میں ریزننگ (reasoning) ماڈلز جیت جاتے ہیں۔ DeepSeek-R1 پیچیدہ الگورتھم اور سیکیورٹی ریویو میں بہترین کارکردگی دکھاتا ہے۔ گہری منطقی (logic) کاموں کے لیے یہ زیادہ قیمت کے قابل ہے۔
روزمرہ کے کاموں میں سستے ماڈلز جیت جاتے ہیں۔ DeepSeek V4 Flash اور Qwen3-Coder-30B ڈی بگنگ (debugging) اور معیاری فنکشنز کے لیے بہترین ہیں۔

ٹاسک کی تفصیل:

Python Recursion: DeepSeek-R1 مکمل تجزیے کے ساتھ جیت گیا۔
JavaScript Bug Fix: DeepSeek V4 Flash اور Qwen3-Coder-30B بہترین ویلیو کے لیے برابر رہے۔
TypeScript Algorithms: DeepSeek-R1 نے بہترین ٹائپ سیفٹی (type safety) فراہم کی۔
Go Security Review: DeepSeek-R1 نے تمام مسائل تلاش کیے اور ٹیسٹ تجویز کیے۔

سوشل میڈیا پر ہائپ (hype) کا پیچھا کرنا چھوڑ دیں۔ اپنے ٹولز منتخب کرنے کے لیے ڈیٹا کا استعمال کریں۔ اگر آپ کو روزمرہ کے استعمال کے لیے کچھ چاہیے، تو سستے اور زیادہ اسکور والے ماڈلز کا انتخاب کریں۔ اگر آپ کو ریاضی یا منطق کا کوئی مشکل مسئلہ حل کرنا ہے، تو ریزننگ ماڈل استعمال کریں۔

ماخذ: https://dev.to/rarenode/i-ran-10-ai-models-through-5-coding-tasks-heres-the-full-data-4ie6

اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi

𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀

Continue reading

میں نے اس RAG سیٹ اپ کے ذریعے اپنے AI اخراجات میں 60% کی بچت کیسے کی

میں نے کم بجٹ میں ورڈپریس اے آئی چیٹ بوٹ کیسے بنایا

میں نے GPT 4o کے مقابلے میں Qwen کا بینچ مارک کیا

𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝘃𝘀 𝗖𝗹𝗮𝘂𝗱𝗲 𝟯.𝟱 𝗦𝗼𝗻𝗻𝗲𝘁: 𝗠𝘆 𝗛𝗼𝗻𝗲𝘀𝘁 𝗧𝗮𝗸𝗲

کیا آپ کو روزمرہ کے کاموں کے لیے سب سے جدید ترین AI کی ضرورت ہے؟