𝗛𝗼𝘄 𝗜 𝗙𝗶𝘅𝗲𝗱 𝗔𝗜 𝗟𝗮𝘁𝗲𝗻𝗰𝘆 𝗪𝗶𝘁𝗵 𝗦𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗮𝗻𝗱 𝗖𝗮𝗰𝗵𝗶𝗻𝗴

📅2 hours ago⏱1 min read

Jak rozwiązałem problem opóźnień AI dzięki streamingowi i cachowaniu

Zbudowałem asystenta czatu dla klienta. Działał słabo.

Użytkownicy zadawali pytania. Czekali 15 sekund. Widzieli pusty ekran. Potem odchodzili. Klient był niezadowolony.

Problemem nie był model AI. Problemem był mój kod. Czekałem na pełną odpowiedź, zanim pokazałem cokolwiek użytkownikowi.

Próbowałem kilku rozwiązań. Async nie pomogło. Cachowanie dokładnego tekstu działało tylko w przypadku FAQ. Ograniczanie liczby tokenów sprawiało, że odpowiedzi stawały się bezużyteczne.

Rozwiązałem to za pomocą dwóch metod.

Streaming

Większość API AI obsługuje streaming. Zamiast czekać na cały blok tekstu, otrzymujesz małe fragmenty (chunks). Możesz je wyświetlać w miarę ich napływania.

Pierwsze słowo pojawia się w 300 ms. Pełna odpowiedź wciąż wymaga czasu, ale użytkownik natychmiast widzi postęp. To sprawia, że użytkownicy pozostają zaangażowani.

Semantic Caching

Użytkownicy często zadają podobne pytania. Zbudowałem cache, który rozumie znaczenie.

Używam osadzeń zdań (sentence embeddings) i bazy danych wektorowych (vector database). Zanim wywołam API, sprawdzam, czy w moim cache istnieje podobne pytanie.

Jeśli istnieje dopasowanie, zwracam odpowiedź w 10 ms. To wyeliminowało potrzebę wywoływania API u 30% moich użytkowników.

Wyniki:

• Streaming poprawia doświadczenie użytkownika, pokazując postęp w czasie rzeczywistym. • Semantic caching redukuje koszty i zmniejsza opóźnienia przy powtarzających się pytaniach.

Kompromisy:

• Streaming sprawia, że backend staje się bardziej złożony. Musisz zarządzać otwartymi połączeniami. • Cachowanie wymaga dodatkowego sprzętu lub oprogramowania, takiego jak baza danych wektorowych. • Ustawianie progów (thresholds) cache'owania jest trudne. Jeśli próg jest zbyt wysoki, przegapisz dopasowania. Jeśli jest zbyt niski, będziesz podawać błędne odpowiedzi.

Przestań obwiniać model AI za wolne działanie. Spójrz na to, jak zarządzasz danymi.

Źródło: https://dev.to/__c1b9e06dc90a7e0a676b/how-i-tamed-ai-api-latency-with-streaming-and-prompt-caching-g0

Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi

𝗛𝗼𝘄 𝗜 𝗙𝗶𝘅𝗲𝗱 𝗔𝗜 𝗟𝗮𝘁𝗲𝗻𝗰𝘆 𝗪𝗶𝘁𝗵 𝗦𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗮𝗻𝗱 𝗖𝗮𝗰𝗵𝗶𝗻𝗴

Continue reading

Sekret tworzenia bardziej niezawodnych chatbotów AI

Jak radzić sobie z niestabilnymi API AI

𝗪𝗵𝘆 𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗥𝗲𝗹𝘆𝗶𝗻𝗴 𝗼𝗻 𝗮 𝗦𝗶𝗻𝗴𝗹𝗲 𝗔𝗜 𝗣𝗿𝗼𝘃𝗶𝗱𝗲𝗿

Przestań używać AI jako wyszukiwarki

𝗛𝗼𝘄 𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗠𝘆 𝗔𝗜 𝗙𝗲𝗮𝘁𝘂𝗿𝗲 𝗳𝗿𝗼𝗺 𝗗𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗠𝘆 𝗪𝗮𝗹𝗹𝗲𝘁