Я провел бенчмаркинг Qwen против GPT-4o

Я столкнулся со счетом от OpenAI в размере 4200 долларов в месяц за простую задачу. Это вынудило меня протестировать другие модели.

Я потратил шесть недель на сравнение Qwen и GPT-4o. Я использовал 1247 промптов в пяти категориях:

Результаты показывают, что более высокая стоимость не всегда означает более высокое качество.

Результаты данных:

Я сравнил пять моделей с GPT-4o. Вот средневзвешенные оценки:

Разрыв между GPT-4o и Qwen3-32B в задачах классификации невелик. Однако GPT-4o значительно выигрывает в логическом мышлении.

Влияние на стоимость:

Я спрогнозировал расходы, исходя из 47 миллионов входных токенов и 12 миллионов выходных токенов в месяц.

Мой счет в 4200 долларов мог бы составить всего 339 долларов при том же качестве.

Как я оптимизировал свой пайплайн:

Я перешел на многоуровневую систему маршрутизации. Я использую небольшую модель для оценки сложности задачи.

Я также добавил семантическое кэширование. Это позволяет повторно использовать ответы для похожих запросов. Это сократило количество обращений к LLM на 40%.

Руководство по выбору:

Более дешевые модели часто также обладают меньшей задержкой. Если вашим пользователям нужны быстрые ответы, проверяйте количество токенов в секунду перед выбором.

Источник: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a