Я скоротив витрати на токени свого AI-агента на 62% за один вікенд
Мій AI-агент коштував $5.40 за завдання. Я знизив цю вартість до $2.05 за завдання лише за один вікенд. Мені вдалося досягти цього 62% падіння без втрати якості.
Ось як я це зробив.
Проблема: Мій агент запускає цикл дослідження. Він шукає інформацію в інтернеті, збирає дані зі сторінок (scrapes) та пише резюме. Він витрачав токени трьома способами:
- Перевантаження контексту (Context stuffing): я надсилав моделі цілі сторінки обсягом 50 000 символів. Мені потрібно було лише 2 000 символів. Я платив за цілий стог сіна, щоб знайти одну голку.
- Надмірні промпти (Verbose prompts): мої системні промпти повторювали одні й ті самі інструкції тричі. Я платив за те, щоб модель щоразу перечитувала мої власні слова.
- Надмірне використання дорогих моделей: я використовував моделі високого рівня для міркувань (reasoning models) для простих завдань, як-от резюмування одного абзацу.
Рішення:
Фільтруйте перед надсиланням Замість того, щоб надсилати цілі сторінки, тепер я розбиваю текст на фрагменти (chunks). Спочатку я знаходжу релевантні частини, а потім надсилаю моделі лише їх. Це дозволило зменшити кількість вхідних токенів з 12 500 до 3 200 на сторінку.
Скоротіть системний промпт Я видалив зайві інструкції. Я прибрав описи інструментів, які модель уже знає. Я перестав використовувати шаблонні фрази на кшталт "think step-by-step", оскільки сучасні моделі роблять це за замовчуванням.
Багаторівнева маршрутизація моделей Я перестав використовувати одну модель для всього. Я розділив завдання на три рівні:
- Extraction (Витягування): використовуйте дешеву, маленьку модель.
- Synthesis (Синтез): використовуйте потужну модель високого рівня.
- Formatting (Форматування): використовуйте дешеву, маленьку модель.
Результати тесту на 50 завданнях:
- Вартість за завдання: з $5.40 до $2.05
- Затримка (Latency): з 41 с до 28 с
- Покриття цитуванням (Citation coverage): з 67% до 89%
Агент не став розумнішим. Пайплайн просто став ефективнішим.
Три уроки для ваших production-агентів:
- Встановіть жорсткий бюджет токенів. Припиняйте завдання, якщо воно перевищує ваш ліміт.
- Кешуйте результати. Не збирайте дані з одного й того самого URL двічі.
- Логуйте все. Ви повинні точно знати, який крок коштує найбільше грошей.
Припиніть тягнутися до більших моделей, коли падає якість. Почніть використовувати менші моделі з більш точним контекстом.
Джерело: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1
Додаткова спільнота для навчання: https://t.me/GyaanSetuAi