𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁'𝘀 𝗧𝗼𝗸𝗲𝗻 𝗕𝗶𝗹𝗹 𝗯𝘆 𝟲𝟮% 𝗶𝗻 𝗢𝗻𝗲 𝗪𝗲𝗲𝗸𝗲𝗻𝗱

Translated for your language. Read the original.

AI-assisted draft.

учора2min read

Я скоротив витрати на токени свого AI-агента на 62% за один вікенд

Мій AI-агент коштував $5.40 за завдання. Я знизив цю вартість до $2.05 за завдання лише за один вікенд. Мені вдалося досягти цього 62% падіння без втрати якості.

Ось як я це зробив.

Проблема: Мій агент запускає цикл дослідження. Він шукає інформацію в інтернеті, збирає дані зі сторінок (scrapes) та пише резюме. Він витрачав токени трьома способами:

Перевантаження контексту (Context stuffing): я надсилав моделі цілі сторінки обсягом 50 000 символів. Мені потрібно було лише 2 000 символів. Я платив за цілий стог сіна, щоб знайти одну голку.
Надмірні промпти (Verbose prompts): мої системні промпти повторювали одні й ті самі інструкції тричі. Я платив за те, щоб модель щоразу перечитувала мої власні слова.
Надмірне використання дорогих моделей: я використовував моделі високого рівня для міркувань (reasoning models) для простих завдань, як-от резюмування одного абзацу.

Рішення:

Фільтруйте перед надсиланням Замість того, щоб надсилати цілі сторінки, тепер я розбиваю текст на фрагменти (chunks). Спочатку я знаходжу релевантні частини, а потім надсилаю моделі лише їх. Це дозволило зменшити кількість вхідних токенів з 12 500 до 3 200 на сторінку.
Скоротіть системний промпт Я видалив зайві інструкції. Я прибрав описи інструментів, які модель уже знає. Я перестав використовувати шаблонні фрази на кшталт "think step-by-step", оскільки сучасні моделі роблять це за замовчуванням.
Багаторівнева маршрутизація моделей Я перестав використовувати одну модель для всього. Я розділив завдання на три рівні:

Extraction (Витягування): використовуйте дешеву, маленьку модель.
Synthesis (Синтез): використовуйте потужну модель високого рівня.
Formatting (Форматування): використовуйте дешеву, маленьку модель.

Результати тесту на 50 завданнях:

Вартість за завдання: з $5.40 до $2.05
Затримка (Latency): з 41 с до 28 с
Покриття цитуванням (Citation coverage): з 67% до 89%

Агент не став розумнішим. Пайплайн просто став ефективнішим.

Три уроки для ваших production-агентів:

Встановіть жорсткий бюджет токенів. Припиняйте завдання, якщо воно перевищує ваш ліміт.
Кешуйте результати. Не збирайте дані з одного й того самого URL двічі.
Логуйте все. Ви повинні точно знати, який крок коштує найбільше грошей.

Припиніть тягнутися до більших моделей, коли падає якість. Почніть використовувати менші моделі з більш точним контекстом.

Джерело: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1

Додаткова спільнота для навчання: https://t.me/GyaanSetuAi

𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁'𝘀 𝗧𝗼𝗸𝗲𝗻 𝗕𝗶𝗹𝗹 𝗯𝘆 𝟲𝟮% 𝗶𝗻 𝗢𝗻𝗲 𝗪𝗲𝗲𝗸𝗲𝗻𝗱

Continue reading

Я скоротив витрати на AI API на 70%

Податок на контекст MCP

𝗛𝗼𝘄 𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗠𝘆 𝗔𝗜 𝗙𝗲𝗮𝘁𝘂𝗿𝗲 𝗳𝗿𝗼𝗺 𝗗𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗠𝘆 𝗪𝗮𝗹𝗹𝗲𝘁

Як я скоротив наші витрати на AI API вдвічі, дотримуючись 99 SLA

𝟳 𝗪𝗮𝘆𝘀 𝘁𝗼 𝗥𝗲𝗱𝘂𝗰𝗲 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗕𝗶𝗹𝗹