𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼

📅3 hours ago⏱2 min read

Я провел бенчмаркинг Qwen против GPT-4o

Я столкнулся со счетом от OpenAI в размере 4200 долларов в месяц за простую задачу. Это вынудило меня протестировать другие модели.

Я потратил шесть недель на сравнение Qwen и GPT-4o. Я использовал 1247 промптов в пяти категориях:

Классификация
Извлечение данных
Суммаризация
Генерация кода
Логическое мышление

Результаты показывают, что более высокая стоимость не всегда означает более высокое качество.

Результаты данных:

Я сравнил пять моделей с GPT-4o. Вот средневзвешенные оценки:

GPT-4o: 0.920
DeepSeek V4 Pro: 0.902
Qwen3-32B: 0.848
DeepSeek V4 Flash: 0.812
GLM-4 Plus: 0.750

Разрыв между GPT-4o и Qwen3-32B в задачах классификации невелик. Однако GPT-4o значительно выигрывает в логическом мышлении.

Влияние на стоимость:

Я спрогнозировал расходы, исходя из 47 миллионов входных токенов и 12 миллионов выходных токенов в месяц.

GPT-4o: $237.50
DeepSeek V4 Pro: $52.25
Qwen3-32B: $28.50
DeepSeek V4 Flash: $25.89
GLM-4 Plus: $19.00

Мой счет в 4200 долларов мог бы составить всего 339 долларов при том же качестве.

Как я оптимизировал свой пайплайн:

Я перешел на многоуровневую систему маршрутизации. Я использую небольшую модель для оценки сложности задачи.

Простые задачи отправляются в DeepSeek V4 Flash.
Средние задачи — в Qwen3-32B.
Сложные задачи — в DeepSeek V4 Pro или GPT-4o.

Я также добавил семантическое кэширование. Это позволяет повторно использовать ответы для похожих запросов. Это сократило количество обращений к LLM на 40%.

Руководство по выбору:

Если вам нужно высочайшее качество и у вас гибкий бюджет: используйте GPT-4o или DeepSeek V4 Pro.
Если вам нужно качество, но вы хотите сэкономить: используйте Qwen3-32B с умной маршрутизацией.
Если стоимость — ваш единственный приоритет: используйте DeepSeek V4 Flash.
Если у вас огромные масштабы и простые задачи: используйте GLM-4 Plus.

Более дешевые модели часто также обладают меньшей задержкой. Если вашим пользователям нужны быстрые ответы, проверяйте количество токенов в секунду перед выбором.

Источник: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a

𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼

Continue reading

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔𝗻 𝗜𝗻𝘁𝗲𝗿𝗻𝗮𝗹 𝗔𝗜 𝗖𝗵𝗮𝘁𝗯𝗼𝘁: 𝗟𝗲𝘀𝘀𝗼𝗻𝘀 𝗟𝗲𝗮𝗿𝗻𝗲𝗱

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗖𝗼𝘀𝘁𝘀 𝟲𝟬% 𝗪𝗶𝘁𝗵 𝗧𝗵𝗶𝘀 𝗥𝗔𝗚 𝗦𝗲𝘁𝘂𝗽

Как я создал ИИ-чатбота для WordPress с минимальным бюджетом

DeepSeek против Claude 3.5 Sonnet: мой честный отзыв

Я протестировал 10 ИИ-моделей на 5 задачах по программированию