RAG Ingestion के लिए Async Scraping बेहतर है

RAG सिस्टम अक्सर पुराने (stale) डेटा के कारण विफल हो जाते हैं। पेज बदल जाता है लेकिन आपका इंडेक्स (index) वही रहता है। इसके बाद आपका AI उच्च आत्मविश्वास के साथ गलत उत्तर देता है।

कई लोग इसे साधारण synchronous scrapers के साथ ठीक करने की कोशिश करते हैं। आप एक पेज फेच (fetch) करते हैं, डेटा निकालते हैं, और अपने vector store को अपडेट करते हैं। यह दृष्टिकोण प्रोडक्शन (production) में समस्याएँ पैदा करता है।

Synchronous scraping के साथ मुख्य समस्याएँ:

Async scraping में submit, poll, और retrieve फ्लो का उपयोग किया जाता है। आप एक टास्क सबमिट करते हैं, एक job ID प्राप्त करते हैं, और बाद में परिणाम की जाँच करते हैं। यह आपके एप्लिकेशन को तेज़ रखता है।

एक विश्वसनीय ingestion pipeline कैसे बनाएँ:

Async scraping बैकग्राउंड अपडेट और शेड्यूल्ड रिफ्रेश के लिए सबसे अच्छा काम करती है। यह रीयल-टाइम (real-time) ज़रूरतों के लिए नहीं है जहाँ यूज़र एक ताज़ा पेज का इंतज़ार करता है।

यदि किसी यूज़र को तुरंत डेटा की आवश्यकता है, तो उन्हें cached content दिखाएँ और बैकग्राउंड में इंडेक्स को अपडेट करें।

Source: https://dev.to/anakin_writers/async-scraping-jobs-are-usually-a-better-fit-for-rag-ingestion-than-blocking-requests-12k1

Optional learning community: https://t.me/GyaanSetuAi