𝗥𝗔𝗚 𝗜𝗻𝗴𝗲𝘀𝘁𝗶𝗼𝗻-ന് 𝗔𝘀𝘆𝗻𝗰 𝗦𝗰𝗿𝗮𝗽𝗶𝗻𝗴 ആണ് കൂടുതൽ അനുയോജ്യം

കാലഹരണപ്പെട്ട ഡാറ്റ (stale data) കാരണം RAG സിസ്റ്റങ്ങൾ പലപ്പോഴും പരാജയപ്പെടുന്നു. പേജ് മാറുന്നുണ്ടെങ്കിലും നിങ്ങളുടെ ഇൻഡക്സ് പഴയതുപോലെ തന്നെ തുടരുന്നു. ഇത് നിങ്ങളുടെ AI തെറ്റായ ഉത്തരങ്ങൾ വളരെ ആത്മവിശ്വാസത്തോടെ നൽകാൻ കാരണമാകുന്നു.

ലളിതമായ സിൻക്രണസ് (synchronous) സ്ക്രാപ്പറുകൾ ഉപയോഗിച്ച് ഇത് പരിഹരിക്കാൻ പലരും ശ്രമിക്കാറുണ്ട്. നിങ്ങൾ ഒരു പേജ് ഫെച്ച് ചെയ്യുന്നു, ഡാറ്റ വേർതിരിച്ചെടുക്കുന്നു, തുടർന്ന് നിങ്ങളുടെ വെക്റ്റർ സ്റ്റോർ (vector store) അപ്‌ഡേറ്റ് ചെയ്യുന്നു. പ്രൊഡക്ഷൻ സാഹചര്യങ്ങളിൽ ഈ രീതി പ്രശ്നങ്ങൾ സൃഷ്ടിക്കുന്നു.

സിൻക്രണസ് സ്ക്രാപ്പിംഗിലെ പ്രധാന പ്രശ്നങ്ങൾ:

Async scraping ഒരു submit, poll, and retrieve ഫ്ലോ ആണ് ഉപയോഗിക്കുന്നത്. നിങ്ങൾ ഒരു ടാസ്ക് സബ്മിറ്റ് ചെയ്യുന്നു, ഒരു job ID ലഭിക്കുന്നു, പിന്നീട് അതിന്റെ ഫലം പരിശോധിക്കുന്നു. ഇത് നിങ്ങളുടെ ആപ്ലിക്കേഷൻ വേഗതയോടെ നിലനിർത്തുന്നു.

വിശ്വസനീയമായ ഒരു ingestion pipeline എങ്ങനെ നിർമ്മിക്കാം:

ബാക്ക്ഗ്രൗണ്ട് അപ്‌ഡേറ്റുകൾക്കും ഷെഡ്യൂൾ ചെയ്ത റിഫ്രഷുകൾക്കും (scheduled refreshes) ആണ് Async scraping ഏറ്റവും അനുയോജ്യം. ഉപയോക്താവ് ഒരു പുതിയ പേജിനായി കാത്തുനിൽക്കുന്ന റിയൽ-ടൈം ആവശ്യങ്ങൾക്കായി ഇത് ഉപയോഗിക്കരുത്.

ഒരു ഉപയോക്താവിന് ഡാറ്റ ഉടൻ തന്നെ ആവശ്യമാണെങ്കിൽ, അവർക്ക് കാഷഡ് കണ്ടന്റ് (cached content) കാണിച്ചുകൊടുക്കുകയും ബാക്ക്ഗ്രൗണ്ടിൽ ഇൻഡക്സ് അപ്‌ഡേറ്റ് ചെയ്യുകയും ചെയ്യുക.

Source: https://dev.to/anakin_writers/async-scraping-jobs-are-usually-a-better-fit-for-rag-ingestion-than-blocking-requests-12k1

Optional learning community: https://t.me/GyaanSetuAi