Reduje la factura de tokens de mi agente de IA en un 62 % en un solo fin de semana
Mi agente de IA costaba 5,40 $ por tarea. Reduje ese coste a 2,05 $ por tarea en un solo fin de semana. Logré esta reducción del 62 % sin perder calidad.
Así es como lo hice.
El problema: Mi agente ejecuta un bucle de investigación. Busca en la web, extrae contenido de las páginas y escribe resúmenes. Estaba consumiendo tokens de tres maneras:
- Relleno de contexto (context stuffing): Enviaba páginas enteras de 50.000 caracteres al modelo. Solo necesitaba 2.000 caracteres. Pagaba por todo el pajar para encontrar una sola aguja.
- Prompts verbosos: Mis prompts de sistema repetían las mismas instrucciones tres veces. Pagaba para que el modelo volviera a leer mis propias palabras cada vez.
- Uso excesivo de modelos costosos: Utilizaba modelos de razonamiento de alto nivel para tareas sencillas, como resumir un solo párrafo.
Las soluciones:
Filtra antes de enviar En lugar de enviar páginas completas, ahora divido el texto en fragmentos (chunks). Primero encuentro las partes relevantes y luego envío solo esas partes al modelo. Esto redujo los tokens de entrada de 12.500 a 3.200 por página.
Recorta el prompt de sistema Eliminé instrucciones redundantes. Quité las descripciones de herramientas que el modelo ya conoce. Dejé de usar frases hechas como "piensa paso a paso" porque los modelos modernos ya lo hacen por defecto.
Enrutamiento de modelos por niveles Dejé de usar un solo modelo para todo. Dividí las tareas en tres niveles:
- Extracción: Usa un modelo pequeño y económico.
- Síntesis: Usa un modelo de razonamiento de alto nivel.
- Formateo: Usa un modelo pequeño y económico.
Los resultados de una prueba de 50 tareas:
- Coste por tarea: de 5,40 $ a 2,05 $
- Latencia: de 41 s a 28 s
- Cobertura de citas: del 67 % al 89 %
El agente no es más inteligente. El pipeline es simplemente más eficiente.
Tres lecciones para tus agentes en producción:
- Establece un presupuesto estricto de tokens. Detén la tarea si supera tu límite.
- Almacena tus resultados en caché. No vuelvas a extraer información de la misma URL dos veces.
- Registra todo (log). Debes saber exactamente qué paso es el que más dinero cuesta.
Deja de recurrir a modelos más grandes cuando la calidad disminuya. Empieza a usar modelos más pequeños con un contexto más ajustado.
Fuente: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1
Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi