میں نے GPT-4o کے مقابلے میں Qwen کا بینچ مارک کیا

ایک سادہ سے کام کے لیے مجھے OpenAI سے 4,200 ڈالر کا ماہانہ بل موصول ہوا۔ اس وجہ سے مجھے دوسرے ماڈلز کا تجربہ کرنے پر مجبور ہونا پڑا۔

میں نے چھ ہفتے Qwen اور GPT-4o کا موازنہ کرنے میں صرفے۔ میں نے پانچ زمروں میں 1,247 پرامپٹس کا استعمال کیا:

نتائج ظاہر کرتے ہیں کہ زیادہ قیمت کا مطلب ہمیشہ بہتر معیار نہیں ہوتا۔

ڈیٹا کے نتائج:

میں نے GPT-4o کے مقابلے میں پانچ ماڈلز کا موازنہ کیا۔ یہاں ان کے ویٹڈ اوسط اسکور (weighted average scores) ہیں:

درجہ بندی (classification) کے کاموں میں GPT-4o اور Qwen3-32B کے درمیان فرق بہت کم ہے۔ تاہم، استدلال (reasoning) کے معاملے میں GPT-4o واضح طور پر بہتر ہے۔

لاگت کا اثر:

میں نے ماہانہ 47 ملین ان پٹ ٹوکنز اور 12 ملین آؤٹ پٹ ٹوکنز کی بنیاد پر لاگت کا تخمینہ لگایا۔

میرا 4,200 ڈالر کا بل اسی معیار کے ساتھ صرف 339 ڈالر ہو سکتا تھا۔

میں نے اپنے پائپ لائن (pipeline) کو کیسے درست کیا:

میں ایک درجہ بندی والے روٹنگ سسٹم (tiered routing system) پر منتقل ہو گیا۔ میں کام کی دشواری کا اندازہ لگانے کے لیے ایک چھوٹے ماڈل کا استعمال کرتا ہوں۔

میں نے سیمنٹک کیشنگ (semantic caching) بھی شامل کی۔ اس سے مجھے ملتے جلتے سوالات کے لیے جوابات کو دوبارہ استعمال کرنے کی سہولت ملتی ہے۔ اس سے میرے LLM ہٹس (hits) میں 40% کمی آئی۔

میرا فیصلہ کرنے کا رہنما اصول:

سستے ماڈلز میں اکثر لیٹنسی (latency) بھی بہتر ہوتی ہے۔ اگر آپ کے صارفین کو تیز جوابات کی ضرورت ہے، تو انتخاب کرنے سے پہلے فی سیکنڈ ٹوکنز (tokens per second) چیک کریں۔

ماخذ: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a