Jak obniżyłem koszty AI o 60% dzięki tej konfiguracji RAG

Trzy miesiące temu prawie zwolniłem klienta.

Nie dlatego, że byli trudni. Stało się tak, ponieważ ich rachunek za LLM pożerał mój zysk. Za zbudowanie systemu RAG policzyłem 4800 USD. W drugim miesiącu wydałem 3100 USD na opłaty API tylko po to, aby utrzymać go przy życiu. To nie jest biznes. To jest działalność charytatywna.

Przebudowałem cały pipeline. Przeszedłem na DeepSeek i zmieniłem konfigurację vector store. Teraz ta sama ilość pracy kosztuje 410 USD miesięcznie. Dokładność i jakość są takie same. Obniżyłem koszty o około 87%.

Oto mój plan działania.

Problemem większości botów AI nie jest inżynieria. Problemem jest zachowanie rentowności, gdy klienci wykonują 40 000 zapytań tygodniowo. Kiedyś używałem „bezpiecznych” modeli, takich jak GPT-4o. Te modele nie spłacą kredytu hipotecznego.

Zacząłem śledzić każde zapytanie. Przyglądałem się liczbie tokenów i trafieniom w cache. Zdałem sobie sprawę, że większość wydatków szła na błahe pytania. Ludzie ciągle pytali: „jaka jest nasza polityka zwrotów”. Te pytania za każdym razem uderzały w te same dane.

Moja stara konfiguracja używała GPT-4o do wszystkiego. Każde proste pytanie kosztowało mnie 0,014 USD. Czterdzieści tysięcy pytań miesięcznie kosztowało 560 USD za same proste rzeczy.

Moja nowa konfiguracja wykorzystuje inteligentną strategię routingu:

• 80% ruchu trafia do DeepSeek V4 Flash. • 20% złożonych zadań trafia do DeepSeek V4 Pro. • Błahe zadania trafiają do GLM-4 Plus.

Różnica w kosztach jest ogromna. DeepSeek V4 Flash kosztuje 0,27 USD za milion tokenów wejściowych. GPT-4o kosztuje 2,50 USD.

Oto jak utrzymuję niskie koszty:

Jako cache używam ChromaDB. W przypadku bota wsparcia, gdzie większość pytań się powtarza, sprawia to, że wiele zapytań jest niemal darmowych.

Nie bogacisz się na opłacie za wdrożenie. Bogacisz się na miesięcznym abonamencie, gdy klient zaczyna polegać na Twoim systemie.

Źródło: https://dev.to/bolddeck/i-cut-my-ai-costs-60-with-this-rag-setup-full-breakdown-2a0