Я скоротив витрати на токени свого AI-агента на 62% за один вікенд

Мій AI-агент коштував $5.40 за завдання. Я знизив цю вартість до $2.05 за завдання лише за один вікенд. Мені вдалося досягти цього 62% падіння без втрати якості.

Ось як я це зробив.

Проблема: Мій агент запускає цикл дослідження. Він шукає інформацію в інтернеті, збирає дані зі сторінок (scrapes) та пише резюме. Він витрачав токени трьома способами:

  • Перевантаження контексту (Context stuffing): я надсилав моделі цілі сторінки обсягом 50 000 символів. Мені потрібно було лише 2 000 символів. Я платив за цілий стог сіна, щоб знайти одну голку.
  • Надмірні промпти (Verbose prompts): мої системні промпти повторювали одні й ті самі інструкції тричі. Я платив за те, щоб модель щоразу перечитувала мої власні слова.
  • Надмірне використання дорогих моделей: я використовував моделі високого рівня для міркувань (reasoning models) для простих завдань, як-от резюмування одного абзацу.

Рішення:

  1. Фільтруйте перед надсиланням Замість того, щоб надсилати цілі сторінки, тепер я розбиваю текст на фрагменти (chunks). Спочатку я знаходжу релевантні частини, а потім надсилаю моделі лише їх. Це дозволило зменшити кількість вхідних токенів з 12 500 до 3 200 на сторінку.

  2. Скоротіть системний промпт Я видалив зайві інструкції. Я прибрав описи інструментів, які модель уже знає. Я перестав використовувати шаблонні фрази на кшталт "think step-by-step", оскільки сучасні моделі роблять це за замовчуванням.

  3. Багаторівнева маршрутизація моделей Я перестав використовувати одну модель для всього. Я розділив завдання на три рівні:

  • Extraction (Витягування): використовуйте дешеву, маленьку модель.
  • Synthesis (Синтез): використовуйте потужну модель високого рівня.
  • Formatting (Форматування): використовуйте дешеву, маленьку модель.

Результати тесту на 50 завданнях:

  • Вартість за завдання: з $5.40 до $2.05
  • Затримка (Latency): з 41 с до 28 с
  • Покриття цитуванням (Citation coverage): з 67% до 89%

Агент не став розумнішим. Пайплайн просто став ефективнішим.

Три уроки для ваших production-агентів:

  • Встановіть жорсткий бюджет токенів. Припиняйте завдання, якщо воно перевищує ваш ліміт.
  • Кешуйте результати. Не збирайте дані з одного й того самого URL двічі.
  • Логуйте все. Ви повинні точно знати, який крок коштує найбільше грошей.

Припиніть тягнутися до більших моделей, коли падає якість. Почніть використовувати менші моделі з більш точним контекстом.

Джерело: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1

Додаткова спільнота для навчання: https://t.me/GyaanSetuAi