𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼

Machine-translated. Read the original.

📅3 hours ago⏱2 min read

لقد أجريت اختبار مقارنة بين Qwen و GPT-4o

واجهت فاتورة شهرية بقيمة 4,200 دولار من OpenAI مقابل مهمة بسيطة. دفعني هذا لاختبار نماذج أخرى.

قضيت ستة أسابيع في المقارنة بين Qwen و GPT-4o. استخدمت 1,247 مطالبة (prompt) عبر خمس فئات:

التصنيف
الاستخراج
التلخيص
توليد الكود
الاستنتاج المنطقي

تُظهر النتائج أن التكلفة الأعلى لا تعني دائمًا جودة أعلى.

نتائج البيانات:

قارنت خمسة نماذج مقابل GPT-4o. إليكم متوسط الدرجات المرجح:

GPT-4o: 0.920
DeepSeek V4 Pro: 0.902
Qwen3-32B: 0.848
DeepSeek V4 Flash: 0.812
GLM-4 Plus: 0.750

الفجوة بين GPT-4o و Qwen3-32B صغيرة في مهام التصنيف. ومع ذلك، يتفوق GPT-4o بشكل كبير في الاستنتاج المنطقي.

تأثير التكلفة:

قمت بتقدير التكاليف بناءً على 47 مليون رمز إدخال (input tokens) و12 مليون رمز إخراج (output tokens) شهريًا.

GPT-4o: $237.50
DeepSeek V4 Pro: $52.25
Qwen3-32B: $28.50
DeepSeek V4 Flash: $25.89
GLM-4 Plus: $19.00

فاتورتي البالغة 4,200 دولار كان من الممكن أن تصبح 339 دولارًا فقط مع الحفاظ على نفس الجودة.

كيف أصلحت مسار العمل (Pipeline) الخاص بي:

انتقلت إلى نظام توجيه متعدد المستويات. أستخدم نموذجًا صغيرًا لتقييم صعوبة المهمة.

المهام السهلة تذهب إلى DeepSeek V4 Flash.
المهام المتوسطة تذهب إلى Qwen3-32B.
المهام الصعبة تذهب إلى DeepSeek V4 Pro أو GPT-4o.

أضفت أيضًا التخزين المؤقت الدلالي (semantic caching). يتيح لي ذلك إعادة استخدام الردود للاستعلامات المتشابهة، مما قلل من عدد مرات استدعاء نماذج اللغة الكبيرة (LLM hits) بنسبة 40%.

دليل اتخاذ القرار الخاص بي:

إذا كنت بحاجة إلى أعلى جودة وكانت ميزانيتك مرنة: استخدم GPT-4o أو DeepSeek V4 Pro.
إذا كنت بحاجة إلى الجودة ولكنك تريد توفير المال: استخدم Qwen3-32B مع التوجيه الذكي.
إذا كانت التكلفة هي أولويتك الوحيدة: استخدم DeepSeek V4 Flash.
إذا كان لديك نطاق واسع ومهام بسيطة: استخدم GLM-4 Plus.

غالبًا ما تتميز النماذج الأرخص بزمن استجابة (latency) أفضل أيضًا. إذا كان مستخدموك يحتاجون إلى ردود سريعة، فافحص عدد الرموز في الثانية (tokens per second) قبل الاختيار.

المصدر: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a

𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼

Continue reading

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔𝗻 𝗜𝗻𝘁𝗲𝗿𝗻𝗮𝗹 𝗔𝗜 𝗖𝗵𝗮𝘁𝗯𝗼𝘁: 𝗟𝗲𝘀𝘀𝗼𝗻𝘀 𝗟𝗲𝗮𝗿𝗻𝗲𝗱

كيف خفضت تكاليف الذكاء الاصطناعي لدي بنسبة 60% باستخدام إعداد RAG هذا

كيف قمت ببناء روبوت دردشة يعمل بالذكاء الاصطناعي لموقع ووردبريس بميزانية محدودة

𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝘃𝘀 𝗖𝗹𝗮𝘂𝗱𝗲 𝟯.𝟱 𝗦𝗼𝗻𝗻𝗲𝘁: 𝗠𝘆 𝗛𝗼𝗻𝗲𝘀𝘁 𝗧𝗮𝗸𝗲

𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀