RAG Ingestion کے لیے Async Scraping بہتر ہے

📅3 hours ago⏱1 min read

RAG Ingestion کے لیے Async Scraping زیادہ بہتر ہے

RAG سسٹمز اکثر پرانے ڈیٹا (stale data) کی وجہ سے ناکام ہو جاتے ہیں۔ پیج تبدیل ہو جاتا ہے لیکن آپ کا انڈیکس وہی رہتا ہے۔ اس کے نتیجے میں آپ کا AI بڑے اعتماد کے ساتھ غلط جوابات دیتا ہے۔

بہت سے لوگ اسے سادہ synchronous scrapers کے ذریعے ٹھیک کرنے کی کوشش کرتے ہیں۔ آپ ایک پیج حاصل کرتے ہیں، ڈیٹا نکالتے ہیں، اور اپنے vector store کو اپ ڈیٹ کرتے ہیں۔ یہ طریقہ کار پروڈکشن میں مسائل پیدا کرتا ہے۔

Synchronous scraping کے اہم مسائل:

JavaScript یا cookie banners کی وجہ سے پیج لوڈ ہونے میں کافی وقت لگتا ہے۔
آپ کی API اسکریپر کے مکمل ہونے کا انتظار کرتی ہے، جس سے صارفین کی رفتار سست ہو جاتی ہے۔
جب آپ کاموں (tasks) کو متوازی (parallel) طور پر چلاتے ہیں تو میموری یا اوپن ساکٹس (open sockets) ختم ہو جاتے ہیں۔
Timeouts یا rate limits جیسے ایررز کو سنبھالنا مشکل ہوتا ہے۔

Async scraping میں submit، poll، اور retrieve کا طریقہ کار استعمال ہوتا ہے۔ آپ ایک ٹاسک جمع کرواتے ہیں، ایک job ID حاصل کرتے ہیں، اور بعد میں نتیجہ چیک کرتے ہیں۔ اس سے آپ کی ایپلی کیشن تیز رہتی ہے۔

ایک قابل اعتماد ingestion pipeline کیسے بنائیں:

Scraping کو request handling سے الگ کریں۔ آپ کی ایپ کو براؤزر لوڈ ہونے کا انتظار نہیں کرنا چاہیے۔
Job states کو ڈیٹا بیس میں محفوظ کریں۔ URL، اسٹیٹس اور ایررز پر نظر رکھیں۔
Content hashes کا استعمال کریں۔ اگر پیج کا مواد تبدیل نہیں ہوا ہے، تو اسے دوبارہ embed نہ کریں۔ اس سے وقت اور پیسے کی بچت ہوتی ہے۔
Dead-letter queues کا استعمال کریں۔ اگر کوئی job تین بار فیل ہو جائے تو دوبارہ کوشش کرنا بند کر دیں۔ اسے ایک ایسی فہرست میں منتقل کر دیں جو نظر آ سکے تاکہ آپ اسے ٹھیک کر سکیں۔
اپنے ڈیٹا کی تصدیق (validate) کریں۔ اپنے vector store تک پہنچنے سے پہلے نکالا گیا ڈیٹا چیک کرنے کے لیے schema کا استعمال کریں۔ ایک خالی اسٹرنگ (empty string) ایک فیل شدہ job سے بھی زیادہ بری ہوتی ہے۔

Async scraping بیک گراؤنڈ اپ ڈیٹس اور شیڈول شدہ ریفریشز کے لیے بہترین کام کرتی ہے۔ یہ ریئل ٹائم ضروریات کے لیے نہیں ہے جہاں صارف تازہ پیج کا انتظار کر رہا ہو۔

اگر صارف کو فوری طور پر ڈیٹا چاہیے، تو انہیں cached مواد دکھائیں اور بیک گراؤنڈ میں انڈیکس کو اپ ڈیٹ کریں۔

ماخذ: https://dev.to/anakin_writers/async-scraping-jobs-are-usually-a-better-fit-for-rag-ingestion-than-blocking-requests-12k1

اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi

RAG Ingestion کے لیے Async Scraping بہتر ہے

Continue reading

𝗚𝗿𝗮𝗽𝗵𝗤𝗟 𝘃𝘀 𝗥𝗘𝗦𝗧: 𝗖𝗵𝗼𝗼𝘀𝗶𝗻𝗴 𝗬𝗼𝘂𝗿 𝗔𝗣𝗜 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲

𝗘𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴 𝗟𝗶𝗳𝗲𝗰𝘆𝗰𝗹𝗲: 𝗖𝗼𝘀𝘁 𝘃𝘀 𝗙𝗿𝗲𝘀𝗵𝗻𝗲𝘀𝘀

𝗛𝗼𝘄 𝗝𝗮𝘃𝗮𝗦𝗰𝗿𝗶𝗽𝘁 𝗔𝘀𝘆𝗻𝗰 𝗪𝗼𝗿𝗸𝘀

𝗛𝗼𝘄 𝘁𝗼 𝗛𝗮𝗻𝗱𝗹𝗲 𝗙𝗹𝗮𝗸𝘆 𝗔𝗜 𝗔𝗣𝗜𝘀

𝗔𝗜 𝗖𝗼𝗱𝗲 𝗥𝗲𝘃𝗶𝗲𝘄 𝗜𝘀 𝗔 𝗥𝗼𝘂𝘁𝗶𝗻𝗴 𝗣𝗿𝗼𝗯𝗹𝗲𝗺