Qwen과 GPT-4o 벤치마크 비교

간단한 작업을 수행하는 데 OpenAI로부터 매달 4,200달러의 청구서를 받았습니다. 이로 인해 다른 모델들을 테스트해야만 했습니다.

6주 동안 Qwen과 GPT-4o를 비교했습니다. 5가지 카테고리에 걸쳐 1,247개의 프롬프트를 사용했습니다:

결과에 따르면 비용이 높다고 해서 반드시 품질이 더 높은 것은 아니었습니다.

데이터 결과:

GPT-4o를 기준으로 5개의 모델을 비교했습니다. 가중 평균 점수는 다음과 같습니다:

분류 작업에서 GPT-4o와 Qwen3-32B의 격차는 작았습니다. 하지만 추론 작업에서는 GPT-4o가 압도적으로 우세했습니다.

비용 영향:

매달 4,700만 개의 입력 토큰과 1,200만 개의 출력 토큰을 사용하는 것을 기준으로 비용을 추산했습니다.

동일한 품질을 유지하면서도 제 4,200달러의 청구서를 339달러로 줄일 수 있었습니다.

파이프라인 개선 방법:

계층형 라우팅 시스템으로 전환했습니다. 작은 모델을 사용하여 작업의 난이도를 판단합니다.

또한 시맨틱 캐싱(semantic caching)을 추가했습니다. 이를 통해 유사한 쿼리에 대해 응답을 재사용할 수 있게 되었고, LLM 호출 횟수를 40% 줄였습니다.

의사결정 가이드:

저렴한 모델은 종종 지연 시간(latency)도 더 짧습니다. 사용자가 빠른 응답을 필요로 한다면, 선택하기 전에 초당 토큰 수(tokens per second)를 확인하세요.

출처: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a