Asynchrone scraping is beter voor RAG-ingestie

📅3 hours ago⏱1 min read

𝗔𝘀𝘆𝗻𝗰 𝗦𝗰𝗿𝗮𝗽𝗶𝗻𝗴 𝗶𝘀 𝗯𝗲𝘁𝗲𝗿 𝘃𝗼𝗼𝗿 𝗥𝗔𝗚-𝗶𝗻𝗴𝗲𝘀𝘁𝗶𝗲

RAG-systemen falen vaak door verouderde data. De pagina verandert, maar je index blijft hetzelfde. Je AI geeft vervolgens foutieve antwoorden met een hoge mate van zekerheid.

Veel mensen proberen dit op te lossen met eenvoudige synchrone scrapers. Je haalt een pagina op, extraheert data en werkt je vector store bij. Deze aanpak zorgt voor problemen in productie.

De belangrijkste problemen met synchrone scraping:

Het laden van pagina's duurt lang vanwege JavaScript of cookiebanners.
Je API wacht tot de scraper klaar is, wat je gebruikers vertraagt.
Je loopt tegen geheugenproblemen of openstaande sockets aan bij het parallel uitvoeren van taken.
Fouten zoals timeouts of rate limits zijn moeilijk te beheren.

Async scraping maakt gebruik van een 'submit, poll, and retrieve'-flow. Je dient een taak in, krijgt een job ID en controleert later het resultaat. Dit houdt je applicatie snel.

Hoe je een betrouwbare ingestie-pipeline bouwt:

Scheid scraping van request handling. Je app moet niet wachten tot een browser is geladen.
Sla de status van jobs op in een database. Houd de URL, status en fouten bij.
Gebruik content hashes. Als de inhoud van de pagina niet is veranderd, hoef je deze niet opnieuw te embedden. Dit bespaart tijd en geld.
Gebruik dead-letter queues. Als een job drie keer mislukt, stop dan met opnieuw proberen. Verplaats deze naar een zichtbare lijst zodat je het kunt oplossen.
Valideer je data. Gebruik een schema om de geëxtraheerde data te controleren voordat deze je vector store bereikt. Een lege string is erger dan een mislukte job.

Async scraping werkt het beste voor achtergrondupdates en geplande verversingen. Het is niet bedoeld voor real-time behoeften waarbij een gebruiker wacht op een actuele pagina.

Als een gebruiker direct data nodig heeft, toon dan gecachte inhoud en update de index op de achtergrond.

Bron: https://dev.to/anakin_writers/async-scraping-jobs-are-usually-a-better-fit-for-rag-ingestion-than-blocking-requests-12k1

Optionele leercommunity: https://t.me/GyaanSetuAi

Asynchrone scraping is beter voor RAG-ingestie

Continue reading

𝗚𝗿𝗮𝗽𝗵𝗤𝗟 𝘃𝘀 𝗥𝗘𝗦𝗧: 𝗖𝗵𝗼𝗼𝘀𝗶𝗻𝗴 𝗬𝗼𝘂𝗿 𝗔𝗣𝗜 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲

𝗘𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴 𝗟𝗶𝗳𝗲𝗰𝘆𝗰𝗹𝗲: 𝗖𝗼𝘀𝘁 𝘃𝘀 𝗙𝗿𝗲𝘀𝗵𝗻𝗲𝘀𝘀

𝗛𝗼𝘄 𝗝𝗮𝘃𝗮𝗦𝗰𝗿𝗶𝗽𝘁 𝗔𝘀𝘆𝗻𝗰 𝗪𝗼𝗿𝗸𝘀

𝗛𝗼𝘄 𝘁𝗼 𝗛𝗮𝗻𝗱𝗹𝗲 𝗙𝗹𝗮𝗸𝘆 𝗔𝗜 𝗔𝗣𝗜𝘀

𝗔𝗜 𝗖𝗼𝗱𝗲 𝗥𝗲𝘃𝗶𝗲𝘄 𝗜𝘀 𝗔 𝗥𝗼𝘂𝘁𝗶𝗻𝗴 𝗣𝗿𝗼𝗯𝗹𝗲𝗺