الكشط غير المتزامن (Async Scraping) أفضل لعملية استيعاب RAG

غالبًا ما تفشل أنظمة RAG بسبب البيانات القديمة. تتغير الصفحة بينما يظل الفهرس كما هو، مما يجعل الذكاء الاصطناعي يقدم إجابات خاطئة بثقة عالية.

يحاول الكثيرون إصلاح ذلك باستخدام أدوات كشط متزامنة (synchronous scrapers) بسيطة. تقوم بجلب الصفحة، واستخراج البيانات، وتحديث مخزن المتجهات (vector store) الخاص بك. هذا النهج يسبب مشاكل في بيئة الإنتاج.

المشكلات الرئيسية في الكشط المتزامن:

يستخدم الكشط غير المتزامن تدفقًا يعتمد على الإرسال، والاستطلاع، والاسترداد (submit, poll, and retrieve). تقوم بإرسال مهمة، وتحصل على معرف المهمة (job ID)، ثم تتحقق من النتيجة لاحقًا. هذا يحافظ على سرعة تطبيقك.

كيفية بناء خط أنابيب استيعاب (ingestion pipeline) موثوق:

يعمل الكشط غير المتزامن بشكل أفضل للتحديثات في الخلفية وعمليات التحديث المجدولة. وهو ليس مخصصًا للاحتياجات في الوقت الفعلي حيث ينتظر المستخدم صفحة جديدة.

إذا احتاج المستخدم إلى البيانات فورًا، فاعرض له المحتوى المخزن مؤقتًا (cached content) وقم بتحديث الفهرس في الخلفية.

المصدر: https://dev.to/anakin_writers/async-scraping-jobs-are-usually-a-better-fit-for-rag-ingestion-than-blocking-requests-12k1

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi