Claude Sonnet 5: 높은 성능 뒤에 숨겨진 상당한 가격 상승
Anthropic의 최신 출시작인 Claude Sonnet 5는 인상적인 벤치마크 성능 향상을 보여주지만, 개발자들에게는 숨겨진 경제적 부담을 안겨줍니다. 공식 토큰 요율은 변동이 없으나, 새로운 데이터에 따르면 모델의 증가된 장황함(verbosity)과 에이전트적 행동(agentic behavior)이 작업당 실제 비용을 크게 높이는 것으로 나타났습니다.
지능 향상 vs. 토큰 소비량
Artificial Analysis Intelligence Index v4.1에 따르면, Claude Sonnet 5는 중요한 기술적 이정표를 달성했습니다. 53점을 기록하며 GPT-5.5 (high)와 공동 5위를 차지했으며, 47점을 기록했던 이전 모델 Sonnet 4.6의 성능을 뛰어넘었습니다. 이러한 성능 도약은 Terminal-Bench v2.1에서 9점 상승, Humanity's Last Exam에서 10점 상승을 기록하는 등 여러 전문 벤치마크에서 명확히 드러납니다.
하지만 이러한 지능 향상은 극심한 토큰 소비를 대가로 이루어졌습니다. AA-Briefcase 및 GDPval-AA와 같은 에이전트 기반 지식 작업 벤치마크에서 Sonnet 5는 Sonnet 4.6보다 약 3배 더 많은 에이전트 루프(agent loops)를 실행합니다. 최대 성능 설정 시, 이 모델은 이전 세대와 비교하여 작업당 출력 토큰을 약 40% 더 많이 소비합니다.
고정된 토큰 가격의 환상
표면적으로 Anthropic은 입력 토큰 100만 개당 3달러, 출력 토큰 100만 개당 15달러라는 기존 가격 구조를 유지했습니다. 이는 각각 5달러와 25달러인 Opus 4.8 티어보다 눈에 띄게 저렴합니다. 하지만 "작업당 비용"은 다른 이야기를 하고 있습니다.
Artificial Analysis의 보고에 따르면, Intelligence Index의 평균 작업 비용은 Sonnet 5의 경우 2.29달러인 반면, 더 비싼 Opus 4.8은 1.97달러에 불과합니다. 작업당 약 1.20달러가 들었던 Sonnet 4.6에서 전환하는 개발자들에게 Sonnet 5로의 이동은 운영 비용이 거의 두 배로 증가함을 의미합니다. 이러한 패턴은 "변동 없는" 요율에도 불구하고 토크나이저 변경으로 인해 비용이 최대 37.4%까지 실질적으로 상승했던 Opus 4.7과 같은 이전 출시 사례와 유사합니다.
경쟁 압박과 투명성의 필요성
Sonnet 5가 특정 에이전트 작업에서는 뛰어나지만, 고차원적인 물리 추론에서는 여전히 어려움을 겪고 있습니다. Argonne National Labs의 CritPt 벤치마크에서 17%를 기록하며 GLM-5.2, Claude Fable 5, GPT-5.5와 같은 강자들에게 뒤처졌습니다.
이러한 성능 격차와 상승하는 비용 구조는 Anthropic을 위태로운 위치에 몰아넣고 있습니다. Deepseek V4 Pro 및 GLM-5.2와 같은 중국 경쟁사들이 훨씬 저렴한 비용으로 대등한 중급 성능을 제공함에 따라, Claude 제품군의 "숨겨진" 가격 상승은 기업 도입의 결정적인 요소가 되고 있습니다. 업계는 에이전트 워크플로우의 실제 계산 부하를 더 이상 반영하지 못하는 단순 토큰 수에 의존하기보다, 표준화된 작업당 비용과 같이 더 투명한 지표를 필요로 하는 방향으로 움직이고 있습니다.
핵심 요약
- 숨겨진 비용 증가: 토큰 요율은 동일함에도 불구하고, Sonnet 5는 토큰 소비량 증가로 인해 Sonnet 4.6보다 작업당 비용이 약 90% 더 비쌉니다.
- 벤치마크 성능: Sonnet 5는 53점으로 세계 5위를 기록했으며, 에이전트 루프 및 SciCode, Terminal-Bench와 같은 특정 벤치마크에서 엄청난 향상을 보여주었습니다.
- 가격 불균형: 실제 지능 벤치마크로 측정했을 때, "더 저렴한" Sonnet 5는 프리미엄 모델인 Opus 4.8($1.97)보다 작업당 비용($2.29)이 실제로 더 많이 듭니다.
