Reduje la factura de tokens de mi agente de IA en un 62 % en un solo fin de semana

Mi agente de IA costaba 5,40 $ por tarea. Reduje ese coste a 2,05 $ por tarea en un solo fin de semana. Logré esta reducción del 62 % sin perder calidad.

Así es como lo hice.

El problema: Mi agente ejecuta un bucle de investigación. Busca en la web, extrae contenido de las páginas y escribe resúmenes. Estaba consumiendo tokens de tres maneras:

  • Relleno de contexto (context stuffing): Enviaba páginas enteras de 50.000 caracteres al modelo. Solo necesitaba 2.000 caracteres. Pagaba por todo el pajar para encontrar una sola aguja.
  • Prompts verbosos: Mis prompts de sistema repetían las mismas instrucciones tres veces. Pagaba para que el modelo volviera a leer mis propias palabras cada vez.
  • Uso excesivo de modelos costosos: Utilizaba modelos de razonamiento de alto nivel para tareas sencillas, como resumir un solo párrafo.

Las soluciones:

  1. Filtra antes de enviar En lugar de enviar páginas completas, ahora divido el texto en fragmentos (chunks). Primero encuentro las partes relevantes y luego envío solo esas partes al modelo. Esto redujo los tokens de entrada de 12.500 a 3.200 por página.

  2. Recorta el prompt de sistema Eliminé instrucciones redundantes. Quité las descripciones de herramientas que el modelo ya conoce. Dejé de usar frases hechas como "piensa paso a paso" porque los modelos modernos ya lo hacen por defecto.

  3. Enrutamiento de modelos por niveles Dejé de usar un solo modelo para todo. Dividí las tareas en tres niveles:

  • Extracción: Usa un modelo pequeño y económico.
  • Síntesis: Usa un modelo de razonamiento de alto nivel.
  • Formateo: Usa un modelo pequeño y económico.

Los resultados de una prueba de 50 tareas:

  • Coste por tarea: de 5,40 $ a 2,05 $
  • Latencia: de 41 s a 28 s
  • Cobertura de citas: del 67 % al 89 %

El agente no es más inteligente. El pipeline es simplemente más eficiente.

Tres lecciones para tus agentes en producción:

  • Establece un presupuesto estricto de tokens. Detén la tarea si supera tu límite.
  • Almacena tus resultados en caché. No vuelvas a extraer información de la misma URL dos veces.
  • Registra todo (log). Debes saber exactamente qué paso es el que más dinero cuesta.

Deja de recurrir a modelos más grandes cuando la calidad disminuya. Empieza a usar modelos más pequeños con un contexto más ajustado.

Fuente: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi