Claude Sonnet 5: El alto rendimiento oculta un aumento significativo de precio

El último lanzamiento de Anthropic, Claude Sonnet 5, ofrece mejoras impresionantes en los benchmarks, pero conlleva una carga financiera oculta para los desarrolladores. Aunque las tarifas oficiales por token se mantienen sin cambios, nuevos datos sugieren que la mayor verbosidad y el comportamiento agéntico del modelo elevan significativamente el coste real por tarea.

Ganancias de inteligencia frente al consumo de tokens

Según el Artificial Analysis Intelligence Index v4.1, Claude Sonnet 5 ha alcanzado un hito técnico significativo. Con una puntuación de 53 puntos, ocupa el quinto lugar a nivel mundial, empatando con GPT-5.5 (high) y superando a su predecesor, Sonnet 4.6, que obtuvo 47 puntos. Este salto de rendimiento es evidente en varios benchmarks especializados, incluyendo un aumento de 9 puntos en Terminal-Bench v2.1 y un incremento de 10 puntos en Humanity's Last Exam.

Sin embargo, estas ganancias de inteligencia se producen a costa de un consumo extremo de tokens. En los benchmarks de trabajo de conocimiento basado en agentes, como AA-Briefcase y GDPval-AA, Sonnet 5 ejecuta aproximadamente tres veces más bucles de agente que Sonnet 4.6. Con los ajustes de máximo rendimiento, el modelo consume aproximadamente un 40% más de tokens de salida por tarea en comparación con la generación anterior.

La ilusión de los precios de tokens estáticos

A simple vista, Anthropic ha mantenido su estructura de precios: 3 $ por millón de tokens de entrada y 15 $ por millón de tokens de salida. Esto es notablemente más barato que el nivel Opus 4.8, que cuesta 5 $ y 25 $ respectivamente. Sin embargo, el «coste por tarea» cuenta una historia diferente.

Artificial Analysis informa que una tarea promedio en el Intelligence Index cuesta 2,29 $ con Sonnet 5, mientras que el más caro, Opus 4.8, cuesta solo 1,97 $. Para los desarrolladores que transicionan desde Sonnet 4.6 —que costaba aproximadamente 1,20 $ por tarea—, el cambio a Sonnet 5 representa casi una duplicación de los gastos operativos. Este patrón se asemeja a lanzamientos anteriores, como Opus 4.7, donde los cambios en el tokenizador aumentaron efectivamente los costes hasta un 37,4%, a pesar de que las tarifas se mantuvieron «sin cambios».

Presiones competitivas y la necesidad de transparencia

Si bien Sonnet 5 destaca en ciertas tareas agénticas, todavía tiene dificultades con el razonamiento físico de alto nivel. En el benchmark CritPt de Argonne National Labs, obtuvo un 17%, quedando por detrás de pesos pesados como GLM-5.2, Claude Fable 5 y GPT-5.5.

Esta brecha de rendimiento y la creciente estructura de costes colocan a Anthropic en una posición precaria. A medida que competidores chinos como Deepseek V4 Pro y GLM-5.2 ofrecen un rendimiento de gama media comparable a una fracción del coste, el aumento de precio «oculto» de la familia Claude se convierte en un factor crítico para la adopción empresarial. La industria se encamina hacia la necesidad de métricas más transparentes —como el coste por tarea estandarizada— en lugar de depender de recuentos brutos de tokens que ya no reflejan la carga computacional real de los flujos de trabajo agénticos.

Conclusiones clave

  • Aumento de coste oculto: A pesar de tener tarifas de tokens idénticas, Sonnet 5 es aproximadamente un 90% más caro por tarea que Sonnet 4.6 debido al mayor consumo de tokens.
  • Rendimiento en benchmarks: Sonnet 5 ocupa el 5.º lugar mundial con 53 puntos, mostrando ganancias masivas en bucles agénticos y en benchmarks específicos como SciCode y Terminal-Bench.
  • Disparidad de precios: El «más barato» Sonnet 5 en realidad cuesta más por tarea (2,29 $) que el premium Opus 4.8 (1,97 $) cuando se mide mediante benchmarks de inteligencia del mundo real.