Asynchroniczne scrapowanie jest lepsze dla ingestii RAG

📅3 hours ago⏱1 min read

Asynchroniczne scrapowanie lepiej sprawdza się w ingestii RAG

Systemy RAG często zawodzą z powodu nieaktualnych danych. Strona się zmienia, ale Twój indeks pozostaje taki sam. W efekcie Twoja sztuczna inteligencja udziela błędnych odpowiedzi z dużą pewnością.

Wiele osób próbuje rozwiązać ten problem za pomocą prostych, synchronicznych scraperów. Pobierasz stronę, wyodrębniasz dane i aktualizujesz swoją bazę wektorową. Takie podejście generuje problemy w środowisku produkcyjnym.

Główne problemy ze scrapowaniem synchronicznym:

Ładowanie stron trwa długo ze względu na JavaScript lub banery cookies.
Twoje API czeka na zakończenie pracy scrapera, co spowalnia użytkowników.
Brakuje pamięci lub otwartych gniazd (sockets) podczas uruchamiania zadań równolegle.
Błędy takie jak przekroczenie czasu oczekiwania (timeouts) czy limity zapytań (rate limits) są trudne do zarządzania.

Asynchroniczne scrapowanie wykorzystuje przepływ typu „wyślij, odpytaj i pobierz” (submit, poll, and retrieve). Przesyłasz zadanie, otrzymujesz identyfikator zadania (job ID) i sprawdzasz wynik później. Dzięki temu Twoja aplikacja pozostaje szybka.

Jak zbudować niezawodny potok ingestii:

Oddziel scrapowanie od obsługi żądań. Twoja aplikacja nie powinna czekać na załadowanie przeglądarki.
Przechowuj stany zadań w bazie danych. Śledź adres URL, status i błędy.
Używaj skrótów treści (content hashes). Jeśli zawartość strony się nie zmieniła, nie twórz ponownie jej osadzeń (embeddings). Oszczędza to czas i pieniądze.
Używaj kolejek błędów (dead-letter queues). Jeśli zadanie nie powiedzie się trzy razy, przestań ponawiać próby. Przenieś je na widoczną listę, aby móc je naprawić.
Waliduj swoje dane. Użyj schematu, aby sprawdzić wyodrębnione dane, zanim trafią do bazy wektorowej. Pusty ciąg znaków jest gorszy niż nieudane zadanie.

Asynchroniczne scrapowanie najlepiej sprawdza się przy aktualizacjach w tle i zaplanowanych odświeżeniach. Nie jest przeznaczone do potrzeb czasu rzeczywistego, w których użytkownik czeka na świeżą stronę.

Jeśli użytkownik potrzebuje danych natychmiast, pokaż mu zasoby z pamięci podręcznej i zaktualizuj indeks w tle.

Źródło: https://dev.to/anakin_writers/async-scraping-jobs-are-usually-a-better-fit-for-rag-ingestion-than-blocking-requests-12k1

Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi

Asynchroniczne scrapowanie jest lepsze dla ingestii RAG

Continue reading

𝗚𝗿𝗮𝗽𝗵𝗤𝗟 𝘃𝘀 𝗥𝗘𝗦𝗧: 𝗖𝗵𝗼𝗼𝘀𝗶𝗻𝗴 𝗬𝗼𝘂𝗿 𝗔𝗣𝗜 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲

𝗘𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴 𝗟𝗶𝗳𝗲𝗰𝘆𝗰𝗹𝗲: 𝗖𝗼𝘀𝘁 𝘃𝘀 𝗙𝗿𝗲𝘀𝗵𝗻𝗲𝘀𝘀

𝗛𝗼𝘄 𝗝𝗮𝘃𝗮𝗦𝗰𝗿𝗶𝗽𝘁 𝗔𝘀𝘆𝗻𝗰 𝗪𝗼𝗿𝗸𝘀

𝗛𝗼𝘄 𝘁𝗼 𝗛𝗮𝗻𝗱𝗹𝗲 𝗙𝗹𝗮𝗸𝘆 𝗔𝗜 𝗔𝗣𝗜𝘀

𝗔𝗜 𝗖𝗼𝗱𝗲 𝗥𝗲𝘃𝗶𝗲𝘄 𝗜𝘀 𝗔 𝗥𝗼𝘂𝘁𝗶𝗻𝗴 𝗣𝗿𝗼𝗯𝗹𝗲𝗺