𝗔𝘀𝘆𝗻𝗰 𝗦𝗰𝗿𝗮𝗽𝗶𝗻𝗴 𝗜𝘀 𝗕𝗲𝘁𝘁𝗲𝗿 𝗳𝗼𝗿 𝗥𝗔𝗚 𝗜𝗻𝗴𝗲𝘀𝘁𝗶𝗼𝗻

📅3 hours ago⏱1 min read

𝗔𝘀𝘆𝗻𝗰 𝗦𝗰𝗿𝗮𝗽𝗶𝗻𝗴, 𝗥𝗔𝗚 𝗩𝗲𝗿𝗶 𝗔𝗹ı𝗺ı 𝗜𝗰̧𝗶𝗻 𝗗𝗮𝗵𝗮 İ𝘆𝗶𝗱𝗶𝗿

RAG sistemleri genellikle güncelliğini yitirmiş veriler nedeniyle başarısız olur. Sayfa değişir ancak indeksiniz aynı kalır. Bu durumda yapay zekanız, yüksek güven oranıyla yanlış cevaplar verir.

Birçok kişi bu sorunu basit senkron scraper'lar ile çözmeye çalışır. Bir sayfayı çekersiniz, veriyi ayıklarsınız ve vektör deponuzu (vector store) güncellersiniz. Bu yaklaşım üretim ortamında (production) sorunlar yaratır.

Senkron scraping ile ilgili temel sorunlar:

JavaScript veya çerez banner'ları nedeniyle sayfa yüklemeleri uzun sürer.
API'niz scraper'ın bitmesini bekler, bu da kullanıcılarınızı yavaşlatır.
Görevleri paralel çalıştırırken bellek (memory) veya açık soket (socket) sorunu yaşarsınız.
Zaman aşımı (timeout) veya hız sınırları (rate limit) gibi hataları yönetmek zordur.

Asenkron scraping; bir görev gönderme (submit), sorgulama (poll) ve geri alma (retrieve) akışını kullanır. Bir görev gönderirsiniz, bir iş kimliği (job ID) alırsınız ve sonucu daha sonra kontrol edersiniz. Bu, uygulamanızın hızlı kalmasını sağlar.

Güvenilir bir veri alım hattı (ingestion pipeline) nasıl oluşturulur:

Scraping işlemini istek yönetiminden (request handling) ayırın. Uygulamanız bir tarayıcının yüklenmesini beklememelidir.
İş durumlarını bir veritabanında saklayın. URL'yi, durumu ve hataları takip edin.
İçerik özetleri (content hashes) kullanın. Eğer sayfa içeriği değişmediyse, onu tekrar gömmeyin (re-embed). Bu, zaman ve maliyet tasarrufu sağlar.
Dead-letter kuyrukları kullanın. Bir iş üç kez başarısız olursa, tekrar denemeyi bırakın. Onarabilmeniz için işi görünür bir listeye taşıyın.
Verilerinizi doğrulayın. Ayıklanan verileri vektör deponuza ulaşmadan önce kontrol etmek için bir şema (schema) kullanın. Boş bir dize (empty string), başarısız bir işten daha kötüdür.

Asenkron scraping, arka plan güncellemeleri ve planlanmış yenilemeler için en iyi sonucu verir. Bir kullanıcının yeni bir sayfa beklediği gerçek zamanlı ihtiyaçlar için uygun değildir.

Eğer bir kullanıcının veriye hemen ihtiyacı varsa, ona önbelleğe alınmış (cached) içeriği gösterin ve indeksi arka planda güncelleyin.

Kaynak: https://dev.to/anakin_writers/async-scraping-jobs-are-usually-a-better-fit-for-rag-ingestion-than-blocking-requests-12k1

İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi

𝗔𝘀𝘆𝗻𝗰 𝗦𝗰𝗿𝗮𝗽𝗶𝗻𝗴 𝗜𝘀 𝗕𝗲𝘁𝘁𝗲𝗿 𝗳𝗼𝗿 𝗥𝗔𝗚 𝗜𝗻𝗴𝗲𝘀𝘁𝗶𝗼𝗻

Continue reading

GraphQL vs REST: API Mimarinizi Seçmek

𝗘𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴 𝗟𝗶𝗳𝗲𝗰𝘆𝗰𝗹𝗲: 𝗖𝗼𝘀𝘁 𝘃𝘀 𝗙𝗿𝗲𝘀𝗵𝗻𝗲𝘀𝘀

𝗛𝗼𝘄 𝗝𝗮𝘃𝗮𝗦𝗰𝗿𝗶𝗽𝘁 𝗔𝘀𝘆𝗻𝗰 𝗪𝗼𝗿𝗸𝘀

𝗛𝗼𝘄 𝘁𝗼 𝗛𝗮𝗻𝗱𝗹𝗲 𝗙𝗹𝗮𝗸𝘆 𝗔𝗜 𝗔𝗣𝗜𝘀

𝗔𝗜 𝗖𝗼𝗱𝗲 𝗥𝗲𝘃𝗶𝗲𝘄 𝗜𝘀 𝗔 𝗥𝗼𝘂𝘁𝗶𝗻𝗴 𝗣𝗿𝗼𝗯𝗹𝗲𝗺