עצרו את בוטים של כריית נתונים לפני שהם גונבים את התוכן שלכם
בוטים של כריית נתונים גונבים את התוכן, המבנה והתנועה (traffic) שלכם. הם מעתיקים את קטלוגי המוצרים, התיאורים והמחירים שלכם בן לילה. יום אחד אתם מדורגים במקום הראשון. למחרת, אתרי מראה (mirror sites) משתמשים בדיוק בנתונים שלכם כדי להתחרות בכם.
אי אפשר לעצור כל בוט. המטרה שלכם היא להפוך את ה-scraping ליקר ואיטי מדי עבורם.
איך לזהות scraper:
- בקשות לדפים מתבצעות מהר מדי עבור בן אדם.
- Crawlers ניגשים לדפים מבלי ללחוץ על קישורים.
- קפיצות בתנועה (traffic spikes) בשעות לא שגרתיות.
- כתובת IP בודדת ניגשת ל-200 דפים תוך 20 שניות.
איך להגן על האתר שלכם:
Use Rate Limiting הגדירו גבולות לכמות הבקשות שכתובת IP יכולה לבצע. אם כתובת IP שולחת יותר מדי בקשות, הגבילו אותה או חסמו אותה.
Implement Behavioral Detection בוטים טוענים JavaScript באופן מיידי. בני אדם לא. השתמשו בכלים שבודקים תנועת סמן ומהירות אינטראקציה כדי להבדיל ביניהם.
Secure Your APIs APIs ציבוריים ללא הגבלות הם דליפות מידע עצומות. הציבו את ה-endpoints שלכם מאחורי מפתחות (keys) או טוקנים (tokens). הגבילו את מספר הקריאות שכל מפתח בודד יכול לבצע.
Use Dynamic Content טענו את התוכן העיקרי שלכם רק לאחר אינטראקציה של משתמש. זה מונע מבוטים לבצע חילוץ טקסט המוני (bulk extraction) במהלך סריקה (crawl) פשוטה.
Leverage your CDN השתמשו ב-CDN שלכם כדי לחסום רשתות בוטים ידועות. תוכלו גם להטיל אתגר על תנועה חשודה באמצעות בדיקת interstitial.
Create Friction השתמשו במחסומים פשוטים כמו דרישת אימייל עבור תוכן בעל ערך גבוה. רוב ה-scrapers לא יעברו את השלב הזה.
הפסיקו ליישם פתרונות גנריים. מצאו את הנתונים בעלי הערך הגבוה ביותר שלכם והגנו על נקודות הלחץ הספציפיות הללו. אם תהפכו את תהליך החילוץ למרגיז, רוב הבוטים יעברו למטרה קלה יותר.
מקור: https://dev.to/julianneagu/stop-data-mining-bots-before-they-steal-your-content-22o4