डेटा माइनिंग बॉट्स को अपने कंटेंट चोरी करने से पहले रोकें
डेटा माइनिंग बॉट्स आपका कंटेंट, स्ट्रक्चर और ट्रैफिक चुरा लेते हैं। वे रातों-रात आपके प्रोडक्ट कैटलॉग, विवरण और कीमतों की नकल कर लेते हैं। एक दिन आप पहले स्थान पर रैंक करते हैं। अगले ही दिन, मिरर साइट्स आपके सटीक डेटा का उपयोग करके आपसे प्रतिस्पर्धा करने लगती हैं।
आप हर बॉट को नहीं रोक सकते। आपका लक्ष्य स्क्रैपिंग को उनके लिए बहुत महंगा और धीमा बनाना है।
स्क्रैपर की पहचान कैसे करें:
- पेज रिक्वेस्ट किसी इंसान की तुलना में बहुत तेज़ी से होती हैं।
- क्रॉलर्स बिना लिंक पर क्लिक किए पेजों तक पहुँच जाते हैं।
- अजीब समय पर ट्रैफिक में अचानक उछाल आता है।
- एक ही IP 20 सेकंड में 200 पेजों को हिट करता है।
अपनी साइट को कैसे सुरक्षित करें:
Rate Limiting का उपयोग करें एक IP कितनी रिक्वेस्ट भेज सकता है, इसकी सीमा तय करें। यदि कोई IP बहुत अधिक रिक्वेस्ट भेजता है, तो उन्हें सीमित करें या ब्लॉक कर दें।
Behavioral Detection लागू करें बॉट्स तुरंत JavaScript लोड कर लेते हैं। इंसान नहीं। उन्हें अलग पहचानने के लिए ऐसे टूल्स का उपयोग करें जो कर्सर की मूवमेंट और इंटरैक्शन स्पीड पर नज़र रखते हैं।
अपनी APIs को सुरक्षित करें बिना किसी सीमा वाली पब्लिक APIs डेटा लीक का बड़ा कारण बनती हैं। अपने एंडपॉइंट्स को कीज़ (keys) या टोकन के पीछे रखें। एक सिंगल की (key) कितनी कॉल कर सकती है, इसकी सीमा तय करें।
Dynamic Content का उपयोग करें अपना मुख्य कंटेंट केवल यूजर इंटरैक्शन के बाद ही लोड करें। यह बॉट्स को साधारण क्रॉल के दौरान टेक्स्ट को बल्क में निकालने से रोकता है।
अपने CDN का लाभ उठाएं ज्ञात बॉट नेटवर्क को ब्लॉक करने के लिए अपने CDN का उपयोग करें। आप इंटरस्टिशियल चेक (interstitial check) के साथ संदिग्ध ट्रैफिक को चुनौती भी दे सकते हैं।
बाधाएं (Friction) पैदा करें हाई-वैल्यू कंटेंट के लिए ईमेल की आवश्यकता जैसे सरल गेट्स का उपयोग करें। अधिकांश स्क्रैपर्स इस चरण को पार नहीं कर पाएंगे।
सामान्य समाधान (generic fixes) लागू करना बंद करें। अपने सबसे मूल्यवान डेटा को पहचानें और उन विशिष्ट प्रेशर पॉइंट्स की रक्षा करें। यदि आप डेटा निकालना कठिन बना देते हैं, तो अधिकांश बॉट्स किसी आसान लक्ष्य की ओर बढ़ जाएंगे।
स्रोत: https://dev.to/julianneagu/stop-data-mining-bots-before-they-steal-your-content-22o4