നിങ്ങളുടെ ഉള്ളടക്കം മോഷ്ടിക്കുന്നതിന് മുമ്പ് ഡാറ്റാ മൈനിംഗ് ബോട്ടുകളെ തടയുക
ഡാറ്റാ മൈനിംഗ് ബോട്ടുകൾ നിങ്ങളുടെ ഉള്ളടക്കം (content), ഘടന (structure), ട്രാഫിക് എന്നിവ മോഷ്ടിക്കുന്നു. അവ നിങ്ങളുടെ ഉൽപ്പന്ന കാറ്റലോഗുകൾ, വിവരണങ്ങൾ, വിലകൾ എന്നിവ ഒറ്റരാത്രികൊണ്ട് പകർത്തിയെടുക്കുന്നു. ഒരു ദിവസം നിങ്ങൾ ഒന്നാം സ്ഥാനത്ത് നിൽക്കുമ്പോൾ, അടുത്ത ദിവസം മിറർ സൈറ്റുകൾ (mirror sites) നിങ്ങളുടെ അതേ ഡാറ്റ ഉപയോഗിച്ച് നിങ്ങളോട് മത്സരിക്കുന്നു.
നിങ്ങൾക്ക് എല്ലാ ബോട്ടുകളെയും തടയാൻ കഴിയില്ല. സ്ക്രാപ്പിംഗ് (scraping) അവർക്ക് വളരെ ചെലവേറിയതും സാവധാനത്തിലുള്ളതുമാക്കുക എന്നതാണ് നിങ്ങളുടെ ലക്ഷ്യം.
ഒരു സ്ക്രാപ്പറെ എങ്ങനെ തിരിച്ചറിയാം:
- പേജ് റിക്വസ്റ്റുകൾ ഒരു മനുഷ്യന് സാധ്യമാകാത്തത്ര വേഗത്തിൽ നടക്കുന്നു.
- ലിങ്കുകളിൽ ക്ലിക്ക് ചെയ്യാതെ തന്നെ ക്രോളറുകൾ (crawlers) പേജുകൾ ആക്സസ് ചെയ്യുന്നു.
- അസാധാരണമായ സമയങ്ങളിൽ ട്രാഫിക് പെട്ടെന്ന് വർദ്ധിക്കുന്നു.
- ഒരു ഐപി (IP) 20 സെക്കൻഡിൽ 200 പേജുകൾ സന്ദർശിക്കുന്നു.
നിങ്ങളുടെ സൈറ്റിനെ എങ്ങനെ സംരക്ഷിക്കാം:
Use Rate Limiting ഒരു ഐപിക്ക് എത്ര റിക്വസ്റ്റുകൾ അയക്കാം എന്നതിന് പരിധികൾ നിശ്ചയിക്കുക. ഒരു ഐപിയിൽ നിന്ന് അമിതമായ റിക്വസ്റ്റുകൾ വന്നാൽ അവ നിയന്ത്രിക്കുകയോ ബ്ലോക്ക് ചെയ്യുകയോ ചെയ്യുക.
Implement Behavioral Detection ബോട്ടുകൾ JavaScript ഉടനടി ലോഡ് ചെയ്യുന്നു. മനുഷ്യർ അങ്ങനെയല്ല. അവയെ തിരിച്ചറിയാൻ കർസർ ചലനങ്ങളും (cursor movement) ഇന്ററാക്ഷൻ വേഗതയും നിരീക്ഷിക്കുന്ന ടൂളുകൾ ഉപയോഗിക്കുക.
Secure Your APIs പരിധികളില്ലാത്ത പബ്ലിക് APIs വലിയ സുരക്ഷാ വീഴ്ചകളാണ്. നിങ്ങളുടെ എൻഡ്പോയിന്റുകൾ (endpoints) കീകളോ (keys) ടോക്കണുകളോ (tokens) ഉപയോഗിച്ച് സുരക്ഷിതമാക്കുക. ഒരു കീ ഉപയോഗിച്ച് എത്ര തവണ കോൾ ചെയ്യാം എന്നതിന് പരിധി നിശ്ചയിക്കുക.
Use Dynamic Content ഒരു ഉപയോക്താവിന്റെ ഇടപെടലിന് (user interaction) ശേഷം മാത്രം പ്രധാന ഉള്ളടക്കം ലോഡ് ചെയ്യുക. ഇത് ലളിതമായ ഒരു ക്രോളിംഗിനിടെ ബോട്ടുകൾക്ക് വൻതോതിൽ ടെക്സ്റ്റ് വേർതിരിച്ചെടുക്കുന്നത് തടയുന്നു.
Leverage your CDN അറിയപ്പെടുന്ന ബോട്ടുകളുടെ ശൃംഖലകളെ തടയാൻ നിങ്ങളുടെ CDN ഉപയോഗിക്കുക. സംശയാസ്പദമായ ട്രാഫിക്കിനെ ഒരു ഇന്റർസ്റ്റിഷ്യൽ ചെക്ക് (interstitial check) വഴി പരിശോധിക്കാനും നിങ്ങൾക്ക് സാധിക്കും.
Create Friction മൂല്യമുള്ള ഉള്ളടക്കങ്ങൾക്കായി ഇമെയിൽ ആവശ്യപ്പെടുന്നത് പോലുള്ള ലളിതമായ നിയന്ത്രണങ്ങൾ ഏർപ്പെടുത്തുക. മിക്ക സ്ക്രാപ്പർമാരും ഈ ഘട്ടം മറികടക്കില്ല.
പൊതുവായ പരിഹാരങ്ങൾ മാത്രം തേടി സമയം കളയരുത്. നിങ്ങളുടെ ഏറ്റവും മൂല്യമുള്ള ഡാറ്റ കണ്ടെത്തുകയും ആ പ്രത്യേക ഭാഗങ്ങൾ സംരക്ഷിക്കുകയും ചെയ്യുക. ഡാറ്റ വേർതിരിച്ചെടുക്കുന്നത് ബുദ്ധിമുട്ടുള്ളതാക്കിയാൽ, മിക്ക ബോട്ടുകളും എളുപ്പമുള്ള മറ്റ് ലക്ഷ്യങ്ങളിലേക്ക് മാറും.
Source: https://dev.to/julianneagu/stop-data-mining-bots-before-they-steal-your-content-22o4