𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼

📅3 hours ago⏱2 min read

من Qwen را در برابر GPT-4o بنچمارک کردم

من برای یک کار ساده، با صورت‌حساب ماهانه ۴۲۰۰ دلاری از OpenAI مواجه شدم. این موضوع مرا مجبور کرد تا مدل‌های دیگر را آزمایش کنم.

من شش هفته را صرف مقایسه Qwen و GPT-4o کردم. از ۱۲۴۷ پرامپت در پنج دسته استفاده کردم:

طبقه‌بندی (Classification)
استخراج (Extraction)
خلاصه‌سازی (Summarization)
تولید کد (Code generation)
استدلال (Reasoning)

نتایج نشان می‌دهند که هزینه بالاتر همیشه به معنای کیفیت بالاتر نیست.

نتایج داده‌ها:

من پنج مدل را با GPT-4o مقایسه کردم. در اینجا میانگین امتیازات وزنی آمده است:

GPT-4o: 0.920
DeepSeek V4 Pro: 0.902
Qwen3-32B: 0.848
DeepSeek V4 Flash: 0.812
GLM-4 Plus: 0.750

شکاف بین GPT-4o و Qwen3-32B در وظایف طبقه‌بندی کم است. با این حال، GPT-4o در بخش استدلال با اختلاف برنده می‌شود.

تأثیر هزینه:

من هزینه‌ها را بر اساس ۴۷ میلیون توکن ورودی و ۱۲ میلیون توکن خروجی در ماه پیش‌بینی کردم.

GPT-4o: $237.50
DeepSeek V4 Pro: $52.25
Qwen3-32B: $28.50
DeepSeek V4 Flash: $25.89
GLM-4 Plus: $19.00

صورت‌حساب ۴۲۰۰ دلاری من می‌توانست با همان کیفیت، تنها ۳۳۹ دلار باشد.

چگونه خط لوله (Pipeline) خود را اصلاح کردم:

من به یک سیستم مسیریابی چندسطحی (tiered routing) روی آوردم. از یک مدل کوچک برای تشخیص دشواری وظایف استفاده می‌کنم.

وظایف آسان به DeepSeek V4 Flash فرستاده می‌شوند.
وظایف متوسط به Qwen3-32B فرستاده می‌شوند.
وظایف سخت به DeepSeek V4 Pro یا GPT-4o فرستاده می‌شوند.

همچنین قابلیت کشینگ معنایی (semantic caching) را اضافه کردم. این کار به من اجازه می‌دهد از پاسخ‌ها برای پرس‌وجوهای مشابه دوباره استفاده کنم. این کار تعداد فراخوانی‌های LLM من را ۴۰٪ کاهش داد.

راهنمای تصمیم‌گیری من:

اگر به بالاترین کیفیت نیاز دارید و بودجه منعطفی دارید: از GPT-4o یا DeepSeek V4 Pro استفاده کنید.
اگر به کیفیت نیاز دارید اما می‌خواهید در هزینه‌ها صرفه‌جویی کنید: از Qwen3-32B همراه با مسیریابی هوشمند استفاده کنید.
اگر هزینه تنها اولویت شماست: از DeepSeek V4 Flash استفاده کنید.
اگر مقیاس بسیار بزرگ و وظایف ساده‌ای دارید: از GLM-4 Plus استفاده کنید.

مدل‌های ارزان‌تر اغلب تأخیر (latency) کمتری هم دارند. اگر کاربران شما به پاسخ‌های سریع نیاز دارند، قبل از انتخاب، میزان توکن در ثانیه را بررسی کنید.

منبع: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a

𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼

من Qwen را در برابر GPT-4o بنچمارک کردم

Continue reading

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔𝗻 𝗜𝗻𝘁𝗲𝗿𝗻𝗮𝗹 𝗔𝗜 𝗖𝗵𝗮𝘁𝗯𝗼𝘁: 𝗟𝗲𝘀𝘀𝗼𝗻𝘀 𝗟𝗲𝗮𝗿𝗻𝗲𝗱

چطور با این ساختار RAG، هزینه‌های هوش مصنوعی خود را ۶۰٪ کاهش دادم

چطور یک چت‌بات هوش مصنوعی وردپرس را با بودجه‌ای محدود ساختم

𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝘃𝘀 𝗖𝗹𝗮𝘂𝗱𝗲 𝟯.𝟱 𝗦𝗼𝗻𝗻𝗲𝘁: 𝗠𝘆 𝗛𝗼𝗻𝗲𝘀𝘁 𝗧𝗮𝗸𝗲

𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀