Thinking Tokens Drive Hidden Inference Costs
Thinking tokens(思考トークン)は、AI開発者にとって「隠れた税金」となります。
OpenAI、Anthropic、Googleは、thinking tokensに対して出力トークンと同じレートで料金を課しています。これにより、エージェント型パイプライン(agentic pipelines)のコストは5倍から10倍に膨れ上がります。ほとんどの開発者は、これらのトークンは無料か安価であると考えていますが、実際はそうではありません。
エージェント型パイプラインはこの問題をさらに悪化させます。エージェントは失敗したステップをリトライすることがよくあります。リトライのたびに、数百もの新しいthinking tokensが生成されます。「認識(perceive)、推論(reason)、実行(act)、観察(observe)」という一連のループが、複数回のリトライを引き起こす可能性があるのです。
その計算結果は、利益率にとって非常に危険です: • 3〜5回のリトライを伴うタスクでは、隠れたトークン代として0.10ドルから0.50ドルがかかります。 • 1日あたり10,000件のタスクを処理するパイプラインでは、追加料金として5,000ドルから25,000ドルがかかります。 • APIに10,000ドルを費やしているスタートアップは、thinking tokensだけで5,000ドルを支払う可能性があります。
大規模な価格競争が始まっています。GoogleはGeminiの推論モデルの価格を80%削減する計画です。これは、テックジャイアントとスタートアップの間の格差を示しています。Googleは計算リソースに数十億ドルを投じているため、トークンで赤字を出しても問題ありませんが、スタートアップにはそれができません。
この非対称性は、大規模プロバイダーに有利に働きます。中小企業はこれらのコストを吸収するのに苦労しています。Microsoftでさえ、コスト管理のために従量課金制へと移行し、DeepSeek V4のようなより安価な代替案を検討しています。
以下の2点に注目してください: • 2026年第3四半期のGoogleによるGeminiの公式価格設定。 • thinking tokensの階層型価格設定(tiered pricing)に対するOpenAIの対応。
今すぐトークン使用量を管理しなければ、利益率が消えていくのをただ眺めることになります。
Source: https://pub.towardsai.net
Optional learning community: https://t.me/GyaanSetuAi