Я сократил расходы на токены моего ИИ-агента на 62% за одни выходные

Мой ИИ-агент стоил $5,40 за задачу. За одни выходные я снизил эту стоимость до $2,05 за задачу. Мне удалось добиться такого снижения на 62% без потери качества.

Вот как я это сделал.

Проблема: Мой агент запускает цикл исследования. Он ищет информацию в сети, скрапит страницы и пишет резюме. Он тратил токены тремя способами:

  • Перегрузка контекста (Context stuffing): Я отправлял модели целые страницы объемом 50 000 символов. Мне же требовалось всего 2 000 символов. Я платил за весь стог сена, чтобы найти одну иголку.
  • Избыточные промпты (Verbose prompts): Мои системные промпты повторяли одни и те же инструкции трижды. Я платил за то, чтобы модель каждый раз перечитывала мои же слова.
  • Избыточное использование дорогих моделей: Я использовал мощные модели рассуждения для простых задач, таких как суммаризация одного абзаца.

Решения:

  1. Фильтруйте перед отправкой Вместо того чтобы отправлять страницы целиком, теперь я разбиваю текст на фрагменты (chunks). Сначала я нахожу релевантные части, а затем отправляю модели только их. Это позволило сократить количество входных токенов с 12 500 до 3 200 на страницу.

  2. Оптимизируйте системный промпт Я удалил избыточные инструкции. Я убрал описания инструментов, которые модель уже знает. Я перестал использовать шаблонные фразы вроде «думай шаг за шагом» (think step-by-step), потому что современные модели делают это по умолчанию.

  3. Многоуровневая маршрутизация моделей Я перестал использовать одну модель для всего. Я разделил задачи на три уровня:

  • Извлечение (Extraction): используйте дешевую маленькую модель.
  • Синтез (Synthesis): используйте мощную модель рассуждения.
  • Форматирование (Formatting): используйте дешевую маленькую модель.

Результаты теста на 50 задачах:

  • Стоимость за задачу: с $5,40 до $2,05
  • Задержка (Latency): с 41 до 28 сек
  • Покрытие цитатами: с 67% до 89%

Агент не стал умнее. Просто пайплайн стал эффективнее.

Три урока для ваших продакшн-агентов:

  • Установите жесткий бюджет токенов. Прерывайте задачу, если она превышает лимит.
  • Кэшируйте результаты. Не скрапите один и тот же URL дважды.
  • Логируйте всё. Вы должны точно знать, какой шаг обходится дороже всего.

Перестаньте переходить на более крупные модели, когда падает качество. Начните использовать более компактные модели с более точным контекстом.

Source: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1

Optional learning community: https://t.me/GyaanSetuAi