𝗔𝘀𝘆𝗻𝗰 𝗦𝗰𝗿𝗮𝗽𝗶𝗻𝗴 𝗜𝘀 𝗕𝗲𝘁𝘁𝗲𝗿 𝗳𝗼𝗿 𝗥𝗔𝗚 𝗜𝗻𝗴𝗲𝘀𝘁𝗶𝗼𝗻

ಹಳೆಯ ಅಥವಾ ಅಪ್‌ಡೇಟ್ ಆಗದ ಡೇಟಾದಿಂದಾಗಿ (stale data) RAG ಸಿಸ್ಟಮ್‌ಗಳು ಹೆಚ್ಚಾಗಿ ವಿಫಲವಾಗುತ್ತವೆ. ಪುಟವು ಬದಲಾಗಬಹುದು ಆದರೆ ನಿಮ್ಮ ಇಂಡೆಕ್ಸ್ (index) ಹಾಗೆಯೇ ಇರುತ್ತದೆ. ಆಗ ನಿಮ್ಮ AI ಹೆಚ್ಚಿನ ಆತ್ಮವಿಶ್ವಾಸದೊಂದಿಗೆ ತಪ್ಪು ಉತ್ತರಗಳನ್ನು ನೀಡುತ್ತದೆ.

ಅನೇಕರು ಇದನ್ನು ಸರಳವಾದ synchronous scrapers ಮೂಲಕ ಸರಿಪಡಿಸಲು ಪ್ರಯತ್ನಿಸುತ್ತಾರೆ. ನೀವು ಒಂದು ಪುಟವನ್ನು ಪಡೆದುಕೊಳ್ಳುತ್ತೀರಿ (fetch), ಡೇಟಾವನ್ನು ಹೊರತೆಗೆಯುತ್ತೀರಿ (extract) ಮತ್ತು ನಿಮ್ಮ vector store ಅನ್ನು ಅಪ್‌ಡೇಟ್ ಮಾಡುತ್ತೀರಿ. ಈ ವಿಧಾನವು ಪ್ರೊಡಕ್ಷನ್ (production) ಪರಿಸ್ಥಿತಿಯಲ್ಲಿ ಸಮಸ್ಯೆಗಳನ್ನು ಉಂಟುಮಾಡುತ್ತದೆ.

Synchronous scraping ನ ಮುಖ್ಯ ಸಮಸ್ಯೆಗಳು:

Async scraping ಎಂಬುದು submit, poll, ಮತ್ತು retrieve ಹರಿವನ್ನು (flow) ಬಳಸುತ್ತದೆ. ನೀವು ಒಂದು ಕಾರ್ಯವನ್ನು ಸಲ್ಲಿಸುತ್ತೀರಿ (submit), ಒಂದು job ID ಪಡೆಯುತ್ತೀರಿ ಮತ್ತು ನಂತರ ಫಲಿತಾಂಶವನ್ನು ಪರಿಶೀಲಿಸುತ್ತೀರಿ. ಇದು ನಿಮ್ಮ ಅಪ್ಲಿಕೇಶನ್ ಅನ್ನು ವೇಗವಾಗಿರಿಸುತ್ತದೆ.

ವಿಶ್ವಾಸಾರ್ಹವಾದ ingestion pipeline ಅನ್ನು ನಿರ್ಮಿಸುವುದು ಹೇಗೆ:

Async scraping ಹಿನ್ನೆಲೆ ಅಪ್‌ಡೇಟ್‌ಗಳು (background updates) ಮತ್ತು ನಿಗದಿತ ರಿಫ್ರೆಶ್‌ಗಳಿಗೆ (scheduled refreshes) ಅತ್ಯುತ್ತಮವಾಗಿ ಕೆಲಸ ಮಾಡುತ್ತದೆ. ಬಳಕೆದಾರರು ಹೊಸ ಪುಟಕ್ಕಾಗಿ ಕಾಯುವ ರಿಯಲ್-ಟೈಮ್ (real-time) ಅಗತ್ಯಗಳಿಗಾಗಿ ಇದು ಅಲ್ಲ.

ಬಳಕೆದಾರರಿಗೆ ತಕ್ಷಣವೇ ಡೇಟಾ ಬೇಕಾದಲ್ಲಿ, ಅವರಿಗೆ cached content ಅನ್ನು ತೋರಿಸಿ ಮತ್ತು ಹಿನ್ನೆಲೆಯಲ್ಲಿ (background) ಇಂಡೆಕ್ಸ್ ಅನ್ನು ಅಪ್‌ಡೇಟ್ ಮಾಡಿ.

Source: https://dev.to/anakin_writers/async-scraping-jobs-are-usually-a-better-fit-for-rag-ingestion-than-blocking-requests-12k1

Optional learning community: https://t.me/GyaanSetuAi