لقد أجريت اختبار مقارنة بين Qwen و GPT-4o

واجهت فاتورة شهرية بقيمة 4,200 دولار من OpenAI مقابل مهمة بسيطة. دفعني هذا لاختبار نماذج أخرى.

قضيت ستة أسابيع في المقارنة بين Qwen و GPT-4o. استخدمت 1,247 مطالبة (prompt) عبر خمس فئات:

تُظهر النتائج أن التكلفة الأعلى لا تعني دائمًا جودة أعلى.

نتائج البيانات:

قارنت خمسة نماذج مقابل GPT-4o. إليكم متوسط الدرجات المرجح:

الفجوة بين GPT-4o و Qwen3-32B صغيرة في مهام التصنيف. ومع ذلك، يتفوق GPT-4o بشكل كبير في الاستنتاج المنطقي.

تأثير التكلفة:

قمت بتقدير التكاليف بناءً على 47 مليون رمز إدخال (input tokens) و12 مليون رمز إخراج (output tokens) شهريًا.

فاتورتي البالغة 4,200 دولار كان من الممكن أن تصبح 339 دولارًا فقط مع الحفاظ على نفس الجودة.

كيف أصلحت مسار العمل (Pipeline) الخاص بي:

انتقلت إلى نظام توجيه متعدد المستويات. أستخدم نموذجًا صغيرًا لتقييم صعوبة المهمة.

أضفت أيضًا التخزين المؤقت الدلالي (semantic caching). يتيح لي ذلك إعادة استخدام الردود للاستعلامات المتشابهة، مما قلل من عدد مرات استدعاء نماذج اللغة الكبيرة (LLM hits) بنسبة 40%.

دليل اتخاذ القرار الخاص بي:

غالبًا ما تتميز النماذج الأرخص بزمن استجابة (latency) أفضل أيضًا. إذا كان مستخدموك يحتاجون إلى ردود سريعة، فافحص عدد الرموز في الثانية (tokens per second) قبل الاختيار.

المصدر: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a