𝗔𝘀𝘆𝗻𝗰 𝗦𝗰𝗿𝗮𝗽𝗶𝗻𝗴 𝗜𝘀 𝗕𝗲𝘁𝘁𝗲𝗿 𝗳𝗼𝗿 𝗥𝗔𝗚 𝗜𝗻𝗴𝗲𝘀𝘁𝗶𝗼𝗻

📅3 hours ago⏱1 min read

𝗥𝗔𝗚 𝗜𝗻𝗴𝗲𝘀𝘁𝗶𝗼𝗻-ന് 𝗔𝘀𝘆𝗻𝗰 𝗦𝗰𝗿𝗮𝗽𝗶𝗻𝗴 ആണ് കൂടുതൽ അനുയോജ്യം

കാലഹരണപ്പെട്ട ഡാറ്റ (stale data) കാരണം RAG സിസ്റ്റങ്ങൾ പലപ്പോഴും പരാജയപ്പെടുന്നു. പേജ് മാറുന്നുണ്ടെങ്കിലും നിങ്ങളുടെ ഇൻഡക്സ് പഴയതുപോലെ തന്നെ തുടരുന്നു. ഇത് നിങ്ങളുടെ AI തെറ്റായ ഉത്തരങ്ങൾ വളരെ ആത്മവിശ്വാസത്തോടെ നൽകാൻ കാരണമാകുന്നു.

ലളിതമായ സിൻക്രണസ് (synchronous) സ്ക്രാപ്പറുകൾ ഉപയോഗിച്ച് ഇത് പരിഹരിക്കാൻ പലരും ശ്രമിക്കാറുണ്ട്. നിങ്ങൾ ഒരു പേജ് ഫെച്ച് ചെയ്യുന്നു, ഡാറ്റ വേർതിരിച്ചെടുക്കുന്നു, തുടർന്ന് നിങ്ങളുടെ വെക്റ്റർ സ്റ്റോർ (vector store) അപ്‌ഡേറ്റ് ചെയ്യുന്നു. പ്രൊഡക്ഷൻ സാഹചര്യങ്ങളിൽ ഈ രീതി പ്രശ്നങ്ങൾ സൃഷ്ടിക്കുന്നു.

സിൻക്രണസ് സ്ക്രാപ്പിംഗിലെ പ്രധാന പ്രശ്നങ്ങൾ:

JavaScript അല്ലെങ്കിൽ കുക്കി ബാനറുകൾ (cookie banners) കാരണം പേജ് ലോഡ് ചെയ്യാൻ കൂടുതൽ സമയമെടുക്കുന്നു.
സ്ക്രാപ്പർ പൂർത്തിയാകുന്നത് വരെ നിങ്ങളുടെ API കാത്തുനിൽക്കുന്നു, ഇത് ഉപയോക്താക്കളുടെ വേഗത കുറയ്ക്കുന്നു.
ടാസ്ക്കുകൾ പാരലൽ ആയി (parallel) പ്രവർത്തിപ്പിക്കുമ്പോൾ മെമ്മറി തീരുകയോ ഓപ്പൺ സോക്കറ്റുകൾ (open sockets) വർദ്ധിക്കുകയോ ചെയ്യുന്നു.
ടൈമൗട്ട് (timeout) അല്ലെങ്കിൽ റേറ്റ് ലിമിറ്റ് (rate limit) പോലുള്ള പിശകുകൾ കൈകാര്യം ചെയ്യുന്നത് പ്രയാസകരമാണ്.

Async scraping ഒരു submit, poll, and retrieve ഫ്ലോ ആണ് ഉപയോഗിക്കുന്നത്. നിങ്ങൾ ഒരു ടാസ്ക് സബ്മിറ്റ് ചെയ്യുന്നു, ഒരു job ID ലഭിക്കുന്നു, പിന്നീട് അതിന്റെ ഫലം പരിശോധിക്കുന്നു. ഇത് നിങ്ങളുടെ ആപ്ലിക്കേഷൻ വേഗതയോടെ നിലനിർത്തുന്നു.

വിശ്വസനീയമായ ഒരു ingestion pipeline എങ്ങനെ നിർമ്മിക്കാം:

സ്ക്രാപ്പിംഗിനെ റിക്വസ്റ്റ് ഹാൻഡ്‌ലിംഗിൽ (request handling) നിന്ന് വേർതിരിക്കുക. ഒരു ബ്രൗസർ ലോഡ് ആകുന്നത് വരെ നിങ്ങളുടെ ആപ്പ് കാത്തുനിൽക്കരുത്.
ജോബ് സ്റ്റേറ്റുകൾ (job states) ഒരു ഡാറ്റാബേസിൽ സൂക്ഷിക്കുക. URL, സ്റ്റാറ്റസ്, പിശകുകൾ എന്നിവ ട്രാക്ക് ചെയ്യുക.
കണ്ടന്റ് ഹാഷുകൾ (content hashes) ഉപയോഗിക്കുക. പേജ് കണ്ടന്റ് മാറിയിട്ടില്ലെങ്കിൽ, അത് വീണ്ടും എംബെഡ് (re-embed) ചെയ്യേണ്ടതില്ല. ഇത് പണവും സമയവും ലാഭിക്കുന്നു.
ഡെഡ്-ലെറ്റർ ക്യൂകൾ (dead-letter queues) ഉപയോഗിക്കുക. ഒരു ജോബ് മൂന്ന് തവണ പരാജയപ്പെട്ടാൽ, വീണ്ടും ശ്രമിക്കുന്നത് നിർത്തുക. അത് പരിഹരിക്കാനായി ഒരു വിസിബിൾ ലിസ്റ്റിലേക്ക് മാറ്റുക.
നിങ്ങളുടെ ഡാറ്റ പരിശോധിക്കുക (validate). വെക്റ്റർ സ്റ്റോറിലെത്തുന്നതിന് മുമ്പ് വേർതിരിച്ചെടുത്ത ഡാറ്റ പരിശോധിക്കാൻ ഒരു സ്കീമ (schema) ഉപയോഗിക്കുക. ഒരു ജോബ് പരാജയപ്പെടുന്നതിനേക്കാൾ മോശമാണ് ഒരു ശൂന്യമായ സ്ട്രിംഗ് (empty string) ലഭിക്കുന്നത്.

ബാക്ക്ഗ്രൗണ്ട് അപ്‌ഡേറ്റുകൾക്കും ഷെഡ്യൂൾ ചെയ്ത റിഫ്രഷുകൾക്കും (scheduled refreshes) ആണ് Async scraping ഏറ്റവും അനുയോജ്യം. ഉപയോക്താവ് ഒരു പുതിയ പേജിനായി കാത്തുനിൽക്കുന്ന റിയൽ-ടൈം ആവശ്യങ്ങൾക്കായി ഇത് ഉപയോഗിക്കരുത്.

ഒരു ഉപയോക്താവിന് ഡാറ്റ ഉടൻ തന്നെ ആവശ്യമാണെങ്കിൽ, അവർക്ക് കാഷഡ് കണ്ടന്റ് (cached content) കാണിച്ചുകൊടുക്കുകയും ബാക്ക്ഗ്രൗണ്ടിൽ ഇൻഡക്സ് അപ്‌ഡേറ്റ് ചെയ്യുകയും ചെയ്യുക.

Source: https://dev.to/anakin_writers/async-scraping-jobs-are-usually-a-better-fit-for-rag-ingestion-than-blocking-requests-12k1

Optional learning community: https://t.me/GyaanSetuAi

𝗔𝘀𝘆𝗻𝗰 𝗦𝗰𝗿𝗮𝗽𝗶𝗻𝗴 𝗜𝘀 𝗕𝗲𝘁𝘁𝗲𝗿 𝗳𝗼𝗿 𝗥𝗔𝗚 𝗜𝗻𝗴𝗲𝘀𝘁𝗶𝗼𝗻

Continue reading

𝗚𝗿𝗮𝗽𝗵𝗤𝗟 𝘃𝘀 𝗥𝗘𝗦𝗧: 𝗖𝗵𝗼𝗼𝘀𝗶𝗻𝗴 𝗬𝗼𝘂𝗿 𝗔𝗣𝗜 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲

𝗘𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴 𝗟𝗶𝗳𝗲𝗰𝘆𝗰𝗹𝗲: 𝗖𝗼𝘀𝘁 𝘃𝘀 𝗙𝗿𝗲𝘀𝗵𝗻𝗲𝘀𝘀

𝗛𝗼𝘄 𝗝𝗮𝘃𝗮𝗦𝗰𝗿𝗶𝗽𝘁 𝗔𝘀𝘆𝗻𝗰 𝗪𝗼𝗿𝗸𝘀

𝗛𝗼𝘄 𝘁𝗼 𝗛𝗮𝗻𝗱𝗹𝗲 𝗙𝗹𝗮𝗸𝘆 𝗔𝗜 𝗔𝗣𝗜𝘀

𝗔𝗜 𝗖𝗼𝗱𝗲 𝗥𝗲𝘃𝗶𝗲𝘄 𝗜𝘀 𝗔 𝗥𝗼𝘂𝘁𝗶𝗻𝗴 𝗣𝗿𝗼𝗯𝗹𝗲𝗺