میں نے GPT-4o کے مقابلے میں Qwen کا بینچ مارک کیا
ایک سادہ سے کام کے لیے مجھے OpenAI سے 4,200 ڈالر کا ماہانہ بل موصول ہوا۔ اس وجہ سے مجھے دوسرے ماڈلز کا تجربہ کرنے پر مجبور ہونا پڑا۔
میں نے چھ ہفتے Qwen اور GPT-4o کا موازنہ کرنے میں صرفے۔ میں نے پانچ زمروں میں 1,247 پرامپٹس کا استعمال کیا:
- درجہ بندی (Classification)
- معلومات نکالنا (Extraction)
- خلاصہ کرنا (Summarization)
- کوڈ کی تیاری (Code generation)
- استدلال (Reasoning)
نتائج ظاہر کرتے ہیں کہ زیادہ قیمت کا مطلب ہمیشہ بہتر معیار نہیں ہوتا۔
ڈیٹا کے نتائج:
میں نے GPT-4o کے مقابلے میں پانچ ماڈلز کا موازنہ کیا۔ یہاں ان کے ویٹڈ اوسط اسکور (weighted average scores) ہیں:
- GPT-4o: 0.920
- DeepSeek V4 Pro: 0.902
- Qwen3-32B: 0.848
- DeepSeek V4 Flash: 0.812
- GLM-4 Plus: 0.750
درجہ بندی (classification) کے کاموں میں GPT-4o اور Qwen3-32B کے درمیان فرق بہت کم ہے۔ تاہم، استدلال (reasoning) کے معاملے میں GPT-4o واضح طور پر بہتر ہے۔
لاگت کا اثر:
میں نے ماہانہ 47 ملین ان پٹ ٹوکنز اور 12 ملین آؤٹ پٹ ٹوکنز کی بنیاد پر لاگت کا تخمینہ لگایا۔
- GPT-4o: $237.50
- DeepSeek V4 Pro: $52.25
- Qwen3-32B: $28.50
- DeepSeek V4 Flash: $25.89
- GLM-4 Plus: $19.00
میرا 4,200 ڈالر کا بل اسی معیار کے ساتھ صرف 339 ڈالر ہو سکتا تھا۔
میں نے اپنے پائپ لائن (pipeline) کو کیسے درست کیا:
میں ایک درجہ بندی والے روٹنگ سسٹم (tiered routing system) پر منتقل ہو گیا۔ میں کام کی دشواری کا اندازہ لگانے کے لیے ایک چھوٹے ماڈل کا استعمال کرتا ہوں۔
- آسان کام DeepSeek V4 Flash کو بھیجے جاتے ہیں۔
- درمیانے درجے کے کام Qwen3-32B کو بھیجے جاتے ہیں۔
- مشکل کام DeepSeek V4 Pro یا GPT-4o کو بھیجے جاتے ہیں۔
میں نے سیمنٹک کیشنگ (semantic caching) بھی شامل کی۔ اس سے مجھے ملتے جلتے سوالات کے لیے جوابات کو دوبارہ استعمال کرنے کی سہولت ملتی ہے۔ اس سے میرے LLM ہٹس (hits) میں 40% کمی آئی۔
میرا فیصلہ کرنے کا رہنما اصول:
- اگر آپ کو بہترین معیار چاہیے اور بجٹ میں لچک ہے: GPT-4o یا DeepSeek V4 Pro استعمال کریں۔
- اگر آپ کو معیار چاہیے لیکن پیسے بچانا چاہتے ہیں: اسمارٹ روٹنگ کے ساتھ Qwen3-32B استعمال کریں۔
- اگر صرف لاگت آپ کی ترجیح ہے: DeepSeek V4 Flash استعمال کریں۔
- اگر آپ کا کام بہت بڑے پیمانے پر ہے اور کام سادہ ہیں: GLM-4 Plus استعمال کریں۔
سستے ماڈلز میں اکثر لیٹنسی (latency) بھی بہتر ہوتی ہے۔ اگر آپ کے صارفین کو تیز جوابات کی ضرورت ہے، تو انتخاب کرنے سے پہلے فی سیکنڈ ٹوکنز (tokens per second) چیک کریں۔
ماخذ: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a