Я сократил расходы на токены моего ИИ-агента на 62% за одни выходные

Translated for your language. Читать оригинал.

AI-assisted draft.

вчера2мин чтения

Мой ИИ-агент стоил $5,40 за задачу. За одни выходные я снизил эту стоимость до $2,05 за задачу. Мне удалось добиться такого снижения на 62% без потери качества.

Вот как я это сделал.

Проблема: Мой агент запускает цикл исследования. Он ищет информацию в сети, скрапит страницы и пишет резюме. Он тратил токены тремя способами:

Перегрузка контекста (Context stuffing): Я отправлял модели целые страницы объемом 50 000 символов. Мне же требовалось всего 2 000 символов. Я платил за весь стог сена, чтобы найти одну иголку.
Избыточные промпты (Verbose prompts): Мои системные промпты повторяли одни и те же инструкции трижды. Я платил за то, чтобы модель каждый раз перечитывала мои же слова.
Избыточное использование дорогих моделей: Я использовал мощные модели рассуждения для простых задач, таких как суммаризация одного абзаца.

Решения:

Фильтруйте перед отправкой Вместо того чтобы отправлять страницы целиком, теперь я разбиваю текст на фрагменты (chunks). Сначала я нахожу релевантные части, а затем отправляю модели только их. Это позволило сократить количество входных токенов с 12 500 до 3 200 на страницу.
Оптимизируйте системный промпт Я удалил избыточные инструкции. Я убрал описания инструментов, которые модель уже знает. Я перестал использовать шаблонные фразы вроде «думай шаг за шагом» (think step-by-step), потому что современные модели делают это по умолчанию.
Многоуровневая маршрутизация моделей Я перестал использовать одну модель для всего. Я разделил задачи на три уровня:

Извлечение (Extraction): используйте дешевую маленькую модель.
Синтез (Synthesis): используйте мощную модель рассуждения.
Форматирование (Formatting): используйте дешевую маленькую модель.

Результаты теста на 50 задачах:

Стоимость за задачу: с $5,40 до $2,05
Задержка (Latency): с 41 до 28 сек
Покрытие цитатами: с 67% до 89%

Агент не стал умнее. Просто пайплайн стал эффективнее.

Три урока для ваших продакшн-агентов:

Установите жесткий бюджет токенов. Прерывайте задачу, если она превышает лимит.
Кэшируйте результаты. Не скрапите один и тот же URL дважды.
Логируйте всё. Вы должны точно знать, какой шаг обходится дороже всего.

Перестаньте переходить на более крупные модели, когда падает качество. Начните использовать более компактные модели с более точным контекстом.

Source: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1

Optional learning community: https://t.me/GyaanSetuAi

Я сократил расходы на токены моего ИИ-агента на 62% за одни выходные

Продолжить чтение

Я сократил расходы на AI API на 70%

Налог на контекст MCP

Как я не дал своей ИИ-функции опустошить мой кошелек

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

𝟳 𝗪𝗮𝘆𝘀 𝘁𝗼 𝗥𝗲𝗱𝘂𝗰𝗲 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗕𝗶𝗹𝗹