من Qwen را در برابر GPT-4o بنچمارک کردم

من برای یک کار ساده، با صورت‌حساب ماهانه ۴۲۰۰ دلاری از OpenAI مواجه شدم. این موضوع مرا مجبور کرد تا مدل‌های دیگر را آزمایش کنم.

من شش هفته را صرف مقایسه Qwen و GPT-4o کردم. از ۱۲۴۷ پرامپت در پنج دسته استفاده کردم:

نتایج نشان می‌دهند که هزینه بالاتر همیشه به معنای کیفیت بالاتر نیست.

نتایج داده‌ها:

من پنج مدل را با GPT-4o مقایسه کردم. در اینجا میانگین امتیازات وزنی آمده است:

شکاف بین GPT-4o و Qwen3-32B در وظایف طبقه‌بندی کم است. با این حال، GPT-4o در بخش استدلال با اختلاف برنده می‌شود.

تأثیر هزینه:

من هزینه‌ها را بر اساس ۴۷ میلیون توکن ورودی و ۱۲ میلیون توکن خروجی در ماه پیش‌بینی کردم.

صورت‌حساب ۴۲۰۰ دلاری من می‌توانست با همان کیفیت، تنها ۳۳۹ دلار باشد.

چگونه خط لوله (Pipeline) خود را اصلاح کردم:

من به یک سیستم مسیریابی چندسطحی (tiered routing) روی آوردم. از یک مدل کوچک برای تشخیص دشواری وظایف استفاده می‌کنم.

همچنین قابلیت کشینگ معنایی (semantic caching) را اضافه کردم. این کار به من اجازه می‌دهد از پاسخ‌ها برای پرس‌وجوهای مشابه دوباره استفاده کنم. این کار تعداد فراخوانی‌های LLM من را ۴۰٪ کاهش داد.

راهنمای تصمیم‌گیری من:

مدل‌های ارزان‌تر اغلب تأخیر (latency) کمتری هم دارند. اگر کاربران شما به پاسخ‌های سریع نیاز دارند، قبل از انتخاب، میزان توکن در ثانیه را بررسی کنید.

منبع: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a