Claude Sonnet 5:高いパフォーマンスの裏に隠された大幅なコスト増

Anthropicの最新リリースであるClaude Sonnet 5は、ベンチマークで目覚ましい向上を見せている一方で、開発者にとっては隠れた経済的負担を伴うものとなっている。公式のトークン単価は据え置かれているものの、新しいデータによると、モデルの冗長性の増加とエージェント的な振る舞いによって、タスクあたりの実質的なコストが大幅に上昇していることが示唆されている。

知能の向上 vs. トークン消費量

Artificial Analysis Intelligence Index v4.1によると、Claude Sonnet 5は重要な技術的マイルストーンを達成した。53ポイントを獲得し、GPT-5.5 (high)と並んで世界第5位に位置しており、47ポイントだった前モデルのSonnet 4.6を上回っている。このパフォーマンスの飛躍は、Terminal-Bench v2.1での9ポイントの向上や、Humanity's Last Examでの10ポイントの増加など、いくつかの専門的なベンチマークにおいて顕著である。

しかし、こうした知能の向上は、極端なトークン消費という代償を伴う。AA-BriefcaseやGDPval-AAといったエージェントベースの知識作業ベンチマークでは、Sonnet 5はSonnet 4.6の約3倍のエージェント・ループを実行する。最大パフォーマンス設定では、このモデルは前世代と比較して、タスクあたりの出力トークンを約40%多く消費する。

据え置かれたトークン価格の錯覚

表面的には、Anthropicは価格体系を維持している。入力トークン100万件あたり3ドル、出力トークン100万件あたり15ドルだ。これは、それぞれ5ドルと25ドルかかるOpus 4.8ティアよりも著しく安価である。しかし、「タスクあたりのコスト」は異なる現実を物語っている。

Artificial Analysisの報告によると、Intelligence Indexにおける平均的なタスクのコストは、Sonnet 5では2.29ドルであるのに対し、より高価なOpus 4.8ではわずか1.97ドルである。タスクあたり約1.20ドルであったSonnet 4.6から移行する開発者にとって、Sonnet 5への移行は運用コストがほぼ倍増することを意味する。このパターンは、Opus 4.7のような過去のリリースでも見られた。当時は、レートが「据え置き」であったにもかかわらず、トークナイザーの変更によって実質的なコストが最大37.4%上昇した。

競争圧力と透明性の必要性

Sonnet 5は特定の能動的なタスクには優れているものの、高度な物理学的推論には依然として苦戦している。アルゴンヌ国立研究所のCritPtベンチマークでは17%のスコアにとどまり、GLM-5.2、Claude Fable 5、GPT-5.5といった有力モデルに後れを取っている。

このパフォーマンスの差と上昇するコスト構造は、Anthropicを不安定な立場に追い込んでいる。Deepseek V4 ProやGLM-5.2といった中国の競合他社が、わずかなコストで同等のミドルレンジのパフォーマンスを提供している中で、Claudeファミリーの「隠れた」価格上昇は、企業導入における決定的な要因となる。業界は、エージェント型ワークフローの実際の計算負荷を反映しなくなった生のトークン数に頼るのではなく、「標準化されたタスクあたりのコスト」といった、より透明性の高い指標を必要とする方向へと動いている。

主なポイント

  • 隠れたコストの増加: トークン単価は同じであるにもかかわらず、トークン消費量の増加により、Sonnet 5のタスクあたりのコストはSonnet 4.6よりも約90%高くなっている。
  • ベンチマーク性能: Sonnet 5は53ポイントで世界第5位にランクインしており、エージェント・ループやSciCode、Terminal-Benchといった特定のベンチマークで大幅な向上を示している。
  • 価格の乖離: 実世界の知能ベンチマークで測定すると、「より安価な」Sonnet 5は、プレミアムなOpus 4.8(1.97ドル)よりも、実際にはタスクあたりのコスト(2.29ドル)が高くなっている。