میں نے GPT 4o کے مقابلے میں Qwen کا بینچ مارک کیا

📅3 hours ago⏱2 min read

میں نے GPT-4o کے مقابلے میں Qwen کا بینچ مارک کیا

ایک سادہ سے کام کے لیے مجھے OpenAI سے 4,200 ڈالر کا ماہانہ بل موصول ہوا۔ اس وجہ سے مجھے دوسرے ماڈلز کا تجربہ کرنے پر مجبور ہونا پڑا۔

میں نے چھ ہفتے Qwen اور GPT-4o کا موازنہ کرنے میں صرفے۔ میں نے پانچ زمروں میں 1,247 پرامپٹس کا استعمال کیا:

درجہ بندی (Classification)
معلومات نکالنا (Extraction)
خلاصہ کرنا (Summarization)
کوڈ کی تیاری (Code generation)
استدلال (Reasoning)

نتائج ظاہر کرتے ہیں کہ زیادہ قیمت کا مطلب ہمیشہ بہتر معیار نہیں ہوتا۔

ڈیٹا کے نتائج:

میں نے GPT-4o کے مقابلے میں پانچ ماڈلز کا موازنہ کیا۔ یہاں ان کے ویٹڈ اوسط اسکور (weighted average scores) ہیں:

GPT-4o: 0.920
DeepSeek V4 Pro: 0.902
Qwen3-32B: 0.848
DeepSeek V4 Flash: 0.812
GLM-4 Plus: 0.750

درجہ بندی (classification) کے کاموں میں GPT-4o اور Qwen3-32B کے درمیان فرق بہت کم ہے۔ تاہم، استدلال (reasoning) کے معاملے میں GPT-4o واضح طور پر بہتر ہے۔

لاگت کا اثر:

میں نے ماہانہ 47 ملین ان پٹ ٹوکنز اور 12 ملین آؤٹ پٹ ٹوکنز کی بنیاد پر لاگت کا تخمینہ لگایا۔

GPT-4o: $237.50
DeepSeek V4 Pro: $52.25
Qwen3-32B: $28.50
DeepSeek V4 Flash: $25.89
GLM-4 Plus: $19.00

میرا 4,200 ڈالر کا بل اسی معیار کے ساتھ صرف 339 ڈالر ہو سکتا تھا۔

میں نے اپنے پائپ لائن (pipeline) کو کیسے درست کیا:

میں ایک درجہ بندی والے روٹنگ سسٹم (tiered routing system) پر منتقل ہو گیا۔ میں کام کی دشواری کا اندازہ لگانے کے لیے ایک چھوٹے ماڈل کا استعمال کرتا ہوں۔

آسان کام DeepSeek V4 Flash کو بھیجے جاتے ہیں۔
درمیانے درجے کے کام Qwen3-32B کو بھیجے جاتے ہیں۔
مشکل کام DeepSeek V4 Pro یا GPT-4o کو بھیجے جاتے ہیں۔

میں نے سیمنٹک کیشنگ (semantic caching) بھی شامل کی۔ اس سے مجھے ملتے جلتے سوالات کے لیے جوابات کو دوبارہ استعمال کرنے کی سہولت ملتی ہے۔ اس سے میرے LLM ہٹس (hits) میں 40% کمی آئی۔

میرا فیصلہ کرنے کا رہنما اصول:

اگر آپ کو بہترین معیار چاہیے اور بجٹ میں لچک ہے: GPT-4o یا DeepSeek V4 Pro استعمال کریں۔
اگر آپ کو معیار چاہیے لیکن پیسے بچانا چاہتے ہیں: اسمارٹ روٹنگ کے ساتھ Qwen3-32B استعمال کریں۔
اگر صرف لاگت آپ کی ترجیح ہے: DeepSeek V4 Flash استعمال کریں۔
اگر آپ کا کام بہت بڑے پیمانے پر ہے اور کام سادہ ہیں: GLM-4 Plus استعمال کریں۔

سستے ماڈلز میں اکثر لیٹنسی (latency) بھی بہتر ہوتی ہے۔ اگر آپ کے صارفین کو تیز جوابات کی ضرورت ہے، تو انتخاب کرنے سے پہلے فی سیکنڈ ٹوکنز (tokens per second) چیک کریں۔

ماخذ: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a

میں نے GPT 4o کے مقابلے میں Qwen کا بینچ مارک کیا

Continue reading

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔𝗻 𝗜𝗻𝘁𝗲𝗿𝗻𝗮𝗹 𝗔𝗜 𝗖𝗵𝗮𝘁𝗯𝗼𝘁: 𝗟𝗲𝘀𝘀𝗼𝗻𝘀 𝗟𝗲𝗮𝗿𝗻𝗲𝗱

میں نے اس RAG سیٹ اپ کے ذریعے اپنے AI اخراجات میں 60% کی بچت کیسے کی

میں نے کم بجٹ میں ورڈپریس اے آئی چیٹ بوٹ کیسے بنایا

𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝘃𝘀 𝗖𝗹𝗮𝘂𝗱𝗲 𝟯.𝟱 𝗦𝗼𝗻𝗻𝗲𝘁: 𝗠𝘆 𝗛𝗼𝗻𝗲𝘀𝘁 𝗧𝗮𝗸𝗲

𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀