Jak obniżyłem koszty AI o 60% dzięki tej konfiguracji RAG

📅3 hours ago⏱2 min read

Jak obniżyłem koszty AI o 60% dzięki tej konfiguracji RAG

Trzy miesiące temu prawie zwolniłem klienta.

Nie dlatego, że byli trudni. Stało się tak, ponieważ ich rachunek za LLM pożerał mój zysk. Za zbudowanie systemu RAG policzyłem 4800 USD. W drugim miesiącu wydałem 3100 USD na opłaty API tylko po to, aby utrzymać go przy życiu. To nie jest biznes. To jest działalność charytatywna.

Przebudowałem cały pipeline. Przeszedłem na DeepSeek i zmieniłem konfigurację vector store. Teraz ta sama ilość pracy kosztuje 410 USD miesięcznie. Dokładność i jakość są takie same. Obniżyłem koszty o około 87%.

Oto mój plan działania.

Problemem większości botów AI nie jest inżynieria. Problemem jest zachowanie rentowności, gdy klienci wykonują 40 000 zapytań tygodniowo. Kiedyś używałem „bezpiecznych” modeli, takich jak GPT-4o. Te modele nie spłacą kredytu hipotecznego.

Zacząłem śledzić każde zapytanie. Przyglądałem się liczbie tokenów i trafieniom w cache. Zdałem sobie sprawę, że większość wydatków szła na błahe pytania. Ludzie ciągle pytali: „jaka jest nasza polityka zwrotów”. Te pytania za każdym razem uderzały w te same dane.

Moja stara konfiguracja używała GPT-4o do wszystkiego. Każde proste pytanie kosztowało mnie 0,014 USD. Czterdzieści tysięcy pytań miesięcznie kosztowało 560 USD za same proste rzeczy.

Moja nowa konfiguracja wykorzystuje inteligentną strategię routingu:

• 80% ruchu trafia do DeepSeek V4 Flash. • 20% złożonych zadań trafia do DeepSeek V4 Pro. • Błahe zadania trafiają do GLM-4 Plus.

Różnica w kosztach jest ogromna. DeepSeek V4 Flash kosztuje 0,27 USD za milion tokenów wejściowych. GPT-4o kosztuje 2,50 USD.

Oto jak utrzymuję niskie koszty:

Agresywne cachowanie. Cache'uję każde pytanie zadane po raz drugi. 40-procentowy wskaźnik cache hit oszczędza tysiące dolarów.
Routing według trudności. Nie używaj drogiego modelu do odpowiedzi składającej się z jednego zdania.
Używaj ścieżki fallback. Jeśli jeden dostawca padnie, miej przygotowany drugi model.
Monitoruj jakość. Raz w tygodniu przeprowadzam kontrole (spot-checks), aby upewnić się, że dokładność pozostaje na wysokim poziomie.

Jako cache używam ChromaDB. W przypadku bota wsparcia, gdzie większość pytań się powtarza, sprawia to, że wiele zapytań jest niemal darmowych.

Nie bogacisz się na opłacie za wdrożenie. Bogacisz się na miesięcznym abonamencie, gdy klient zaczyna polegać na Twoim systemie.

Źródło: https://dev.to/bolddeck/i-cut-my-ai-costs-60-with-this-rag-setup-full-breakdown-2a0

Jak obniżyłem koszty AI o 60% dzięki tej konfiguracji RAG

Continue reading

𝗢𝗣𝗲𝗻𝗔𝗜 𝗜𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻: 𝗦𝘁𝗼𝗽 𝗪𝗮𝘀𝘁𝗶𝗻𝗴 𝗠𝗼𝗻𝗲𝘆

𝗦𝘁𝗼𝗽 𝗪𝗮𝘀𝘁𝗶𝗻𝗴 𝗠𝗼𝗻𝗲𝘆 𝗼𝗻 𝗔𝗜 𝗔𝗣𝗜𝘀

𝗜 𝗔𝗦𝗞𝗘𝗗 𝗙𝗢𝗥 $𝟓𝟎𝟎/𝗠𝗢𝗡𝗧𝗛. 𝗠𝗬 𝗖𝗢𝗠𝗣𝗔𝗡𝗬 𝗦𝗣𝗘𝗡𝗧 $𝟒𝟕𝟎𝗞 𝗢𝗡 𝗔𝗜 𝗜𝗡𝗦𝗧𝗘𝗔𝗗. 𝗧𝗛𝗘𝗡 𝗜

𝗘𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴 𝗟𝗶𝗳𝗲𝗰𝘆𝗰𝗹𝗲: 𝗖𝗼𝘀𝘁 𝘃𝘀 𝗙𝗿𝗲𝘀𝗵𝗻𝗲𝘀𝘀

𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗔𝗻 𝗟𝗟𝗠 𝗔𝗻𝗱 𝗧𝗵𝗲𝗻 𝗦𝗮𝗶𝗱 𝗡𝗼