Ваш рахунок за AI — це не проблема моделі. Це проблема архітектури.

Якщо ваші витрати на LLM зростають, ви, ймовірно, хочете перейти на дешевшу модель. Можливо, ви зміните GPT-4 на GPT-4-mini. Це трохи допоможе, але рідко вирішує справжню проблему.

Справжня проблема — це ваш робочий процес (workflow). Більшість людей пропускає кожен етап через LLM. Вони використовують мовну логіку для завдань, які цього не потребують.

Кожен AI-воркфлоу складається з чотирьох частин:

• Trigger (Тригер): запускає роботу. Вартість майже нульова. • Deterministic ML (Детерміноване ML): класифікує або оцінює дані. Це дешево. • LLM: читає, пише та міркує. Це дорого. • Tool/API (Інструмент/API): отримує або записує дані. Це дешево.

Розрив між Deterministic ML та LLM величезний. LLM може коштувати в 100–1000 разів більше, ніж простий класифікатор. Якщо ви не обираєте правильний інструмент для кожного етапу, ви за замовчуванням використовуєте найдорожчий.

Розглянемо систему тікетів підтримки.

Погане рішення відправляє весь тікет до LLM. Воно просить LLM класифікувати намір, спрямувати тікет, скласти чернетку відповіді та оновити CRM. Це занадто дорого. Для класифікації не потрібна LLM. Потрібна проста модель, яка зіставляє текст із категорією.

Краще рішення виглядає так:

  1. Trigger: надходить тікет.
  2. Deterministic ML: швидка та дешева модель визначає, чи є тікет фінансовим, технічним або спамом.
  3. LLM: використовується лише для створення чернетки відповіді для валідних тікетів.
  4. Tool/API: система оновлює CRM.

У такому варіанті спам-тікети ніколи не доходять до LLM. Ви перестаєте платити «податок на LLM» за марні завдання.

Якщо ви правильно побудуєте архітектуру, ви усунете найдорожчі виклики ще до того, як почнете змінювати моделі.

Дотримуйтесь цих кроків, щоб знизити витрати:

  • Опишіть свій воркфлоу. Визначте, які етапи потребують справжнього міркування, а які є лише класифікацією або вилученням даних.
  • Винесіть детерміновані кроки за межі промпту. Використовуйте швидші та дешевші методи для маршрутизації та оцінювання.
  • Обмежуйте доступ до LLM. Не генеруйте відповіді для завдань, які цього не потребують.
  • Оцінюйте розмір моделі в останню чергу. Обирайте меншу модель для етапу генерації лише тоді, коли ваша архітектура стане оптимізованою.

Досить сперечатися про те, яка модель найдешевша за токен. Почніть будувати архітектури, які використовують дорогий «двигун» лише тоді, коли це необхідно.

Source: https://dev.to/bakshiyogesh/your-ai-bill-isnt-a-model-problem-its-an-architecture-problem-1ole

Optional learning community: https://t.me/GyaanSetuAi