الكشط غير المتزامن أفضل لتغذية بيانات RAG

📅3 hours ago⏱1 min read

الكشط غير المتزامن (Async Scraping) أفضل لعملية استيعاب RAG

غالبًا ما تفشل أنظمة RAG بسبب البيانات القديمة. تتغير الصفحة بينما يظل الفهرس كما هو، مما يجعل الذكاء الاصطناعي يقدم إجابات خاطئة بثقة عالية.

يحاول الكثيرون إصلاح ذلك باستخدام أدوات كشط متزامنة (synchronous scrapers) بسيطة. تقوم بجلب الصفحة، واستخراج البيانات، وتحديث مخزن المتجهات (vector store) الخاص بك. هذا النهج يسبب مشاكل في بيئة الإنتاج.

المشكلات الرئيسية في الكشط المتزامن:

يستغرق تحميل الصفحات وقتًا طويلاً بسبب JavaScript أو لافتات ملفات تعريف الارتباط (cookie banners).
تنتظر واجهة برمجة التطبيقات (API) الخاصة بك انتهاء عملية الكشط، مما يؤدي إلى إبطاء تجربة المستخدمين.
قد تنفد الذاكرة أو تستهلك المقابس (sockets) المفتوحة عند تشغيل المهام بالتوازي.
يصعب التعامل مع الأخطاء مثل انتهاء المهلة (timeouts) أو حدود معدل الطلبات (rate limits).

يستخدم الكشط غير المتزامن تدفقًا يعتمد على الإرسال، والاستطلاع، والاسترداد (submit, poll, and retrieve). تقوم بإرسال مهمة، وتحصل على معرف المهمة (job ID)، ثم تتحقق من النتيجة لاحقًا. هذا يحافظ على سرعة تطبيقك.

كيفية بناء خط أنابيب استيعاب (ingestion pipeline) موثوق:

افصل عملية الكشط عن معالجة الطلبات. لا ينبغي لتطبيقك أن ينتظر تحميل المتصفح.
قم بتخزين حالات المهام في قاعدة بيانات. تتبع الرابط (URL)، والحالة، والأخطاء.
استخدم بصمات المحتوى (content hashes). إذا لم يتغير محتوى الصفحة، فلا تقم بإعادة تضمينها (re-embed). هذا يوفر المال والوقت.
استخدم طوابير الرسائل المهملة (dead-letter queues). إذا فشلت المهمة ثلاث مرات، توقف عن إعادة المحاولة وانقلها إلى قائمة مرئية لتتمكن من إصلاحها.
تحقق من صحة بياناتك. استخدم مخططًا (schema) لفحص البيانات المستخرجة قبل وصولها إلى مخزن المتجهات الخاص بك. فالسلسلة النصية الفارغة أسوأ من مهمة فاشلة.

يعمل الكشط غير المتزامن بشكل أفضل للتحديثات في الخلفية وعمليات التحديث المجدولة. وهو ليس مخصصًا للاحتياجات في الوقت الفعلي حيث ينتظر المستخدم صفحة جديدة.

إذا احتاج المستخدم إلى البيانات فورًا، فاعرض له المحتوى المخزن مؤقتًا (cached content) وقم بتحديث الفهرس في الخلفية.

المصدر: https://dev.to/anakin_writers/async-scraping-jobs-are-usually-a-better-fit-for-rag-ingestion-than-blocking-requests-12k1

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi

الكشط غير المتزامن أفضل لتغذية بيانات RAG

Continue reading

GraphQL مقابل REST: اختيار معمارية الـ API الخاصة بك

𝗘𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴 𝗟𝗶𝗳𝗲𝗰𝘆𝗰𝗹𝗲: 𝗖𝗼𝘀𝘁 𝘃𝘀 𝗙𝗿𝗲𝘀𝗵𝗻𝗲𝘀𝘀

𝗛𝗼𝘄 𝗝𝗮𝘃𝗮𝗦𝗰𝗿𝗶𝗽𝘁 𝗔𝘀𝘆𝗻𝗰 𝗪𝗼𝗿𝗸𝘀

𝗛𝗼𝘄 𝘁𝗼 𝗛𝗮𝗻𝗱𝗹𝗲 𝗙𝗹𝗮𝗸𝘆 𝗔𝗜 𝗔𝗣𝗜𝘀

𝗔𝗜 𝗖𝗼𝗱𝗲 𝗥𝗲𝘃𝗶𝗲𝘄 𝗜𝘀 𝗔 𝗥𝗼𝘂𝘁𝗶𝗻𝗴 𝗣𝗿𝗼𝗯𝗹𝗲𝗺