Я провел бенчмаркинг Qwen против GPT-4o
Я столкнулся со счетом от OpenAI в размере 4200 долларов в месяц за простую задачу. Это вынудило меня протестировать другие модели.
Я потратил шесть недель на сравнение Qwen и GPT-4o. Я использовал 1247 промптов в пяти категориях:
- Классификация
- Извлечение данных
- Суммаризация
- Генерация кода
- Логическое мышление
Результаты показывают, что более высокая стоимость не всегда означает более высокое качество.
Результаты данных:
Я сравнил пять моделей с GPT-4o. Вот средневзвешенные оценки:
- GPT-4o: 0.920
- DeepSeek V4 Pro: 0.902
- Qwen3-32B: 0.848
- DeepSeek V4 Flash: 0.812
- GLM-4 Plus: 0.750
Разрыв между GPT-4o и Qwen3-32B в задачах классификации невелик. Однако GPT-4o значительно выигрывает в логическом мышлении.
Влияние на стоимость:
Я спрогнозировал расходы, исходя из 47 миллионов входных токенов и 12 миллионов выходных токенов в месяц.
- GPT-4o: $237.50
- DeepSeek V4 Pro: $52.25
- Qwen3-32B: $28.50
- DeepSeek V4 Flash: $25.89
- GLM-4 Plus: $19.00
Мой счет в 4200 долларов мог бы составить всего 339 долларов при том же качестве.
Как я оптимизировал свой пайплайн:
Я перешел на многоуровневую систему маршрутизации. Я использую небольшую модель для оценки сложности задачи.
- Простые задачи отправляются в DeepSeek V4 Flash.
- Средние задачи — в Qwen3-32B.
- Сложные задачи — в DeepSeek V4 Pro или GPT-4o.
Я также добавил семантическое кэширование. Это позволяет повторно использовать ответы для похожих запросов. Это сократило количество обращений к LLM на 40%.
Руководство по выбору:
- Если вам нужно высочайшее качество и у вас гибкий бюджет: используйте GPT-4o или DeepSeek V4 Pro.
- Если вам нужно качество, но вы хотите сэкономить: используйте Qwen3-32B с умной маршрутизацией.
- Если стоимость — ваш единственный приоритет: используйте DeepSeek V4 Flash.
- Если у вас огромные масштабы и простые задачи: используйте GLM-4 Plus.
Более дешевые модели часто также обладают меньшей задержкой. Если вашим пользователям нужны быстрые ответы, проверяйте количество токенов в секунду перед выбором.
Источник: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a