Я сократил расходы на токены моего ИИ-агента на 62% за одни выходные
Мой ИИ-агент стоил $5,40 за задачу. За одни выходные я снизил эту стоимость до $2,05 за задачу. Мне удалось добиться такого снижения на 62% без потери качества.
Вот как я это сделал.
Проблема: Мой агент запускает цикл исследования. Он ищет информацию в сети, скрапит страницы и пишет резюме. Он тратил токены тремя способами:
- Перегрузка контекста (Context stuffing): Я отправлял модели целые страницы объемом 50 000 символов. Мне же требовалось всего 2 000 символов. Я платил за весь стог сена, чтобы найти одну иголку.
- Избыточные промпты (Verbose prompts): Мои системные промпты повторяли одни и те же инструкции трижды. Я платил за то, чтобы модель каждый раз перечитывала мои же слова.
- Избыточное использование дорогих моделей: Я использовал мощные модели рассуждения для простых задач, таких как суммаризация одного абзаца.
Решения:
Фильтруйте перед отправкой Вместо того чтобы отправлять страницы целиком, теперь я разбиваю текст на фрагменты (chunks). Сначала я нахожу релевантные части, а затем отправляю модели только их. Это позволило сократить количество входных токенов с 12 500 до 3 200 на страницу.
Оптимизируйте системный промпт Я удалил избыточные инструкции. Я убрал описания инструментов, которые модель уже знает. Я перестал использовать шаблонные фразы вроде «думай шаг за шагом» (think step-by-step), потому что современные модели делают это по умолчанию.
Многоуровневая маршрутизация моделей Я перестал использовать одну модель для всего. Я разделил задачи на три уровня:
- Извлечение (Extraction): используйте дешевую маленькую модель.
- Синтез (Synthesis): используйте мощную модель рассуждения.
- Форматирование (Formatting): используйте дешевую маленькую модель.
Результаты теста на 50 задачах:
- Стоимость за задачу: с $5,40 до $2,05
- Задержка (Latency): с 41 до 28 сек
- Покрытие цитатами: с 67% до 89%
Агент не стал умнее. Просто пайплайн стал эффективнее.
Три урока для ваших продакшн-агентов:
- Установите жесткий бюджет токенов. Прерывайте задачу, если она превышает лимит.
- Кэшируйте результаты. Не скрапите один и тот же URL дважды.
- Логируйте всё. Вы должны точно знать, какой шаг обходится дороже всего.
Перестаньте переходить на более крупные модели, когда падает качество. Начните использовать более компактные модели с более точным контекстом.
Source: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1
Optional learning community: https://t.me/GyaanSetuAi