עצרו את בוטים של כריית נתונים לפני שהם יגנבו לכם את התוכן

📅4 hours ago⏱1 min read

עצרו את בוטים של כריית נתונים לפני שהם גונבים את התוכן שלכם

בוטים של כריית נתונים גונבים את התוכן, המבנה והתנועה (traffic) שלכם. הם מעתיקים את קטלוגי המוצרים, התיאורים והמחירים שלכם בן לילה. יום אחד אתם מדורגים במקום הראשון. למחרת, אתרי מראה (mirror sites) משתמשים בדיוק בנתונים שלכם כדי להתחרות בכם.

אי אפשר לעצור כל בוט. המטרה שלכם היא להפוך את ה-scraping ליקר ואיטי מדי עבורם.

איך לזהות scraper:

בקשות לדפים מתבצעות מהר מדי עבור בן אדם.
Crawlers ניגשים לדפים מבלי ללחוץ על קישורים.
קפיצות בתנועה (traffic spikes) בשעות לא שגרתיות.
כתובת IP בודדת ניגשת ל-200 דפים תוך 20 שניות.

איך להגן על האתר שלכם:

Use Rate Limiting הגדירו גבולות לכמות הבקשות שכתובת IP יכולה לבצע. אם כתובת IP שולחת יותר מדי בקשות, הגבילו אותה או חסמו אותה.
Implement Behavioral Detection בוטים טוענים JavaScript באופן מיידי. בני אדם לא. השתמשו בכלים שבודקים תנועת סמן ומהירות אינטראקציה כדי להבדיל ביניהם.
Secure Your APIs APIs ציבוריים ללא הגבלות הם דליפות מידע עצומות. הציבו את ה-endpoints שלכם מאחורי מפתחות (keys) או טוקנים (tokens). הגבילו את מספר הקריאות שכל מפתח בודד יכול לבצע.
Use Dynamic Content טענו את התוכן העיקרי שלכם רק לאחר אינטראקציה של משתמש. זה מונע מבוטים לבצע חילוץ טקסט המוני (bulk extraction) במהלך סריקה (crawl) פשוטה.
Leverage your CDN השתמשו ב-CDN שלכם כדי לחסום רשתות בוטים ידועות. תוכלו גם להטיל אתגר על תנועה חשודה באמצעות בדיקת interstitial.
Create Friction השתמשו במחסומים פשוטים כמו דרישת אימייל עבור תוכן בעל ערך גבוה. רוב ה-scrapers לא יעברו את השלב הזה.

הפסיקו ליישם פתרונות גנריים. מצאו את הנתונים בעלי הערך הגבוה ביותר שלכם והגנו על נקודות הלחץ הספציפיות הללו. אם תהפכו את תהליך החילוץ למרגיז, רוב הבוטים יעברו למטרה קלה יותר.

מקור: https://dev.to/julianneagu/stop-data-mining-bots-before-they-steal-your-content-22o4

עצרו את בוטים של כריית נתונים לפני שהם יגנבו לכם את התוכן

Continue reading

𝗗𝗼 𝗡𝗼𝘁 𝗟𝗲𝘁 𝗔𝗜 𝗘𝗿𝗮𝘀𝗲 𝗬𝗼𝘂𝗿 𝗞𝗻𝗼𝘄𝗹𝗲𝗱𝗴𝗲

בניית תקציב ביצועים מונחה מפתחים

הגנה על תהליכי עבודה קנייניים

𝗙𝗿𝗼𝗺 𝗗𝗮𝘁𝗮 𝗗𝗲𝗹𝘂𝗴𝗲 𝘁𝗼 𝗗𝗶𝗴𝗶𝘁𝗮𝗹 𝗗𝗲𝘁𝗲𝗰𝘁𝗶𝘃𝗲: 𝗔𝗜 𝗣𝗼𝘄𝗲𝗿𝗲𝗱 𝗧𝗿𝗶𝗮𝗴𝗲 𝗳𝗼𝗿 𝗦𝗼𝗹𝗼

תחזיות תחילה, נתונים אחר כך