𝗔𝘀𝘆𝗻𝗰 𝗦𝗰𝗿𝗮𝗽𝗶𝗻𝗴 𝗜𝘀 𝗕𝗲𝘁𝘁𝗲𝗿 𝗳𝗼𝗿 𝗥𝗔𝗚 𝗜𝗻𝗴𝗲𝘀𝘁𝗶𝗼𝗻

RAG সিস্টেমগুলো প্রায়শই stale ডেটার কারণে ব্যর্থ হয়। পেজ পরিবর্তিত হয় কিন্তু আপনার ইনডেক্স একই থাকে। ফলে আপনার AI উচ্চ আত্মবিশ্বাসের সাথে ভুল উত্তর দেয়।

অনেকেই সাধারণ synchronous scraper দিয়ে এটি সমাধান করার চেষ্টা করেন। আপনি একটি পেজ ফেচ করেন, ডেটা এক্সট্র্যাক্ট করেন এবং আপনার vector store আপডেট করেন। প্রোডাকশনে এই পদ্ধতিটি বিভিন্ন সমস্যা তৈরি করে।

Synchronous scraping-এর প্রধান সমস্যাগুলো হলো:

Async scraping একটি submit, poll, এবং retrieve ফ্লো ব্যবহার করে। আপনি একটি টাস্ক সাবমিট করেন, একটি job ID পান এবং পরে ফলাফল চেক করেন। এটি আপনার অ্যাপ্লিকেশনকে দ্রুত রাখে।

একটি নির্ভরযোগ্য ingestion pipeline কীভাবে তৈরি করবেন:

Async scraping ব্যাকগ্রাউন্ড আপডেট এবং শিডিউল করা রিফ্রেশ-এর জন্য সবচেয়ে ভালো কাজ করে। এটি রিয়েল-টাইম প্রয়োজনের জন্য নয় যেখানে একজন ব্যবহারকারী একটি নতুন পেজের জন্য অপেক্ষা করেন।

যদি কোনো ব্যবহারকারীর তাৎক্ষণিক ডেটা প্রয়োজন হয়, তবে তাদের cached কন্টেন্ট দেখান এবং ব্যাকগ্রাউন্ডে ইনডেক্স আপডেট করুন।

Source: https://dev.to/anakin_writers/async-scraping-jobs-are-usually-a-better-fit-for-rag-ingestion-than-blocking-requests-12k1

Optional learning community: https://t.me/GyaanSetuAi