RAG Ingestion ਲਈ Async Scraping ਬਿਹਤਰ ਹੈ

RAG ਸਿਸਟਮ ਅਕਸਰ ਪੁਰਾਣੇ (stale) ਡੇਟਾ ਕਾਰਨ ਅਸਫਲ ਹੋ ਜਾਂਦੇ ਹਨ। ਪੇਜ ਬਦਲ ਜਾਂਦਾ ਹੈ ਪਰ ਤੁਹਾਡਾ ਇੰਡੈਕਸ ਉਹੀ ਰਹਿੰਦਾ ਹੈ। ਫਿਰ ਤੁਹਾਡਾ AI ਬਹੁਤ ਭਰੋਸੇ ਨਾਲ ਗਲਤ ਜਵਾਬ ਦਿੰਦਾ ਹੈ।

ਬਹੁਤ ਸਾਰੇ ਲੋਕ ਇਸਨੂੰ ਸਧਾਰਨ synchronous scrapers ਨਾਲ ਠੀਕ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਨ। ਤੁਸੀਂ ਇੱਕ ਪੇਜ ਫੈਚ (fetch) ਕਰਦੇ ਹੋ, ਡੇਟਾ ਕੱਢਦੇ ਹੋ, ਅਤੇ ਆਪਣੇ vector store ਨੂੰ ਅਪਡੇਟ ਕਰਦੇ ਹੋ। ਇਹ ਤਰੀਕਾ production ਵਿੱਚ ਸਮੱਸਿਆਵਾਂ ਪੈਦਾ ਕਰਦਾ ਹੈ।

Synchronous scraping ਨਾਲ ਮੁੱਖ ਸਮੱਸਿਆਵਾਂ:

Async scraping ਇੱਕ submit, poll, ਅਤੇ retrieve ਫਲੋਅ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ। ਤੁਸੀਂ ਇੱਕ ਟਾਸਕ ਸਬਮਿਟ ਕਰਦੇ ਹੋ, ਇੱਕ job ID ਪ੍ਰਾਪਤ ਕਰਦੇ ਹੋ, ਅਤੇ ਬਾਅਦ ਵਿੱਚ ਨਤੀਜੇ ਦੀ ਜਾਂਚ ਕਰਦੇ ਹੋ। ਇਹ ਤੁਹਾਡੀ ਐਪਲੀਕੇਸ਼ਨ ਨੂੰ ਤੇਜ਼ ਰੱਖਦਾ ਹੈ।

ਇੱਕ ਭਰੋਸੇਯੋਗ ingestion pipeline ਕਿਵੇਂ ਬਣਾਈਏ:

Async scraping background updates ਅਤੇ scheduled refreshes ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ ਕੰਮ ਕਰਦੀ ਹੈ। ਇਹ real-time ਲੋੜਾਂ ਲਈ ਨਹੀਂ ਹੈ ਜਿੱਥੇ ਯੂਜ਼ਰ ਇੱਕ ਤਾਜ਼ੇ ਪੇਜ ਦੀ ਉਡੀਕ ਕਰਦਾ ਹੈ।

ਜੇਕਰ ਕਿਸੇ ਯੂਜ਼ਰ ਨੂੰ ਤੁਰੰਤ ਡੇਟਾ ਦੀ ਲੋੜ ਹੈ, ਤਾਂ ਉਹਨਾਂ ਨੂੰ cached content ਦਿਖਾਓ ਅਤੇ background ਵਿੱਚ index ਨੂੰ ਅਪਡੇਟ ਕਰੋ।

ਸਰੋਤ: https://dev.to/anakin_writers/async-scraping-jobs-are-usually-a-better-fit-for-rag-ingestion-than-blocking-requests-12k1

ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi