Qwen과 GPT-4o 벤치마크 비교
간단한 작업을 수행하는 데 OpenAI로부터 매달 4,200달러의 청구서를 받았습니다. 이로 인해 다른 모델들을 테스트해야만 했습니다.
6주 동안 Qwen과 GPT-4o를 비교했습니다. 5가지 카테고리에 걸쳐 1,247개의 프롬프트를 사용했습니다:
- 분류
- 추출
- 요약
- 코드 생성
- 추론
결과에 따르면 비용이 높다고 해서 반드시 품질이 더 높은 것은 아니었습니다.
데이터 결과:
GPT-4o를 기준으로 5개의 모델을 비교했습니다. 가중 평균 점수는 다음과 같습니다:
- GPT-4o: 0.920
- DeepSeek V4 Pro: 0.902
- Qwen3-32B: 0.848
- DeepSeek V4 Flash: 0.812
- GLM-4 Plus: 0.750
분류 작업에서 GPT-4o와 Qwen3-32B의 격차는 작았습니다. 하지만 추론 작업에서는 GPT-4o가 압도적으로 우세했습니다.
비용 영향:
매달 4,700만 개의 입력 토큰과 1,200만 개의 출력 토큰을 사용하는 것을 기준으로 비용을 추산했습니다.
- GPT-4o: $237.50
- DeepSeek V4 Pro: $52.25
- Qwen3-32B: $28.50
- DeepSeek V4 Flash: $25.89
- GLM-4 Plus: $19.00
동일한 품질을 유지하면서도 제 4,200달러의 청구서를 339달러로 줄일 수 있었습니다.
파이프라인 개선 방법:
계층형 라우팅 시스템으로 전환했습니다. 작은 모델을 사용하여 작업의 난이도를 판단합니다.
- 쉬운 작업은 DeepSeek V4 Flash로 보냅니다.
- 중간 난이도 작업은 Qwen3-32B로 보냅니다.
- 어려운 작업은 DeepSeek V4 Pro 또는 GPT-4o로 보냅니다.
또한 시맨틱 캐싱(semantic caching)을 추가했습니다. 이를 통해 유사한 쿼리에 대해 응답을 재사용할 수 있게 되었고, LLM 호출 횟수를 40% 줄였습니다.
의사결정 가이드:
- 최상의 품질이 필요하고 예산이 유연한 경우: GPT-4o 또는 DeepSeek V4 Pro를 사용하세요.
- 품질은 유지하면서 비용을 절감하고 싶은 경우: 스마트 라우팅과 함께 Qwen3-32B를 사용하세요.
- 비용이 유일한 우선순위인 경우: DeepSeek V4 Flash를 사용하세요.
- 대규모 작업이면서 작업이 단순한 경우: GLM-4 Plus를 사용하세요.
저렴한 모델은 종종 지연 시간(latency)도 더 짧습니다. 사용자가 빠른 응답을 필요로 한다면, 선택하기 전에 초당 토큰 수(tokens per second)를 확인하세요.
출처: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a