𝗦𝘁𝗼𝗽 𝗗𝗮𝘁𝗮 𝗠𝗶𝗻𝗶𝗻𝗴 𝗕𝗼𝘁𝘀 𝗕𝗲𝗳𝗼𝗿𝗲 𝗧𝗵𝗲𝘆 𝗦𝘁𝗲𝗮𝗹 𝗬𝗼𝘂𝗿 𝗖𝗼𝗻𝘁𝗲𝗻𝘁
Data mining bots ขโมยเนื้อหา โครงสร้าง และทราฟฟิกของคุณ พวกมันคัดลอกแคตตาล็อกสินค้า คำอธิบาย และราคาของคุณเพียงชั่วข้ามคืน วันหนึ่งคุณอาจอยู่อันดับหนึ่ง แต่อีกวันหนึ่ง mirror sites กลับใช้ข้อมูลชุดเดียวกันเป๊ะเพื่อมาแข่งกับคุณ
คุณไม่สามารถหยุดบอททุกตัวได้ เป้าหมายของคุณคือการทำให้การ scraping มีต้นทุนที่สูงเกินไปและล่าช้าเกินไปสำหรับพวกมัน
วิธีระบุตัวตนของ scraper:
- มีการเรียกหน้าเว็บ (Page requests) เร็วเกินกว่าที่มนุษย์จะทำได้
- Crawlers เข้าถึงหน้าเว็บโดยไม่มีการคลิกลิงก์
- ทราฟฟิกพุ่งสูงขึ้นในเวลาที่ผิดปกติ
- IP เดียวกันเข้าถึง 200 หน้าภายใน 20 วินาที
วิธีปกป้องเว็บไซต์ของคุณ:
Use Rate Limiting กำหนดขอบเขตจำนวนครั้งที่ IP หนึ่งสามารถส่งคำขอได้ หาก IP ส่งคำขอมากเกินไป ให้จำกัดจำนวนหรือบล็อกไปเลย
Implement Behavioral Detection บอทจะโหลด JavaScript ทันที แต่มนุษย์ไม่ทำเช่นนั้น ให้ใช้เครื่องมือที่ตรวจสอบการเคลื่อนที่ของเคอร์เซอร์และความเร็วในการโต้ตอบเพื่อแยกแยะความแตกต่าง
Secure Your APIs Public APIs ที่ไม่มีการจำกัดคือช่องโหว่ขนาดใหญ่ ควรนำ endpoints ของคุณไปไว้หลัง keys หรือ tokens และจำกัดจำนวนครั้งที่ key แต่ละตัวสามารถเรียกใช้งานได้
Use Dynamic Content โหลดเนื้อหาหลักของคุณหลังจากมีการโต้ตอบจากผู้ใช้เท่านั้น วิธีนี้จะช่วยป้องกันไม่ให้บอทดึงข้อความจำนวนมากออกไปในระหว่างการ crawl แบบธรรมดา
Leverage your CDN ใช้ CDN ของคุณเพื่อบล็อกเครือข่ายบอทที่รู้จัก นอกจากนี้ คุณยังสามารถตรวจสอบทราฟฟิกที่น่าสงสัยด้วยการทำ interstitial check
Create Friction ใช้ด่านตรวจง่ายๆ เช่น การกำหนดให้ต้องใช้อีเมลสำหรับเนื้อหาที่มีมูลค่าสูง Scraper ส่วนใหญ่จะไม่สามารถผ่านขั้นตอนนี้ไปได้
เลิกใช้วิธีแก้ปัญหาแบบทั่วไป (generic fixes) ให้ค้นหาข้อมูลที่มีมูลค่าสูงสุดของคุณและปกป้องจุดสำคัญเหล่านั้น หากคุณทำให้การดึงข้อมูลเป็นเรื่องที่น่าหงุดหงิด บอทส่วนใหญ่จะย้ายไปหาเป้าหมายที่ง่ายกว่าแทน
Source: https://dev.to/julianneagu/stop-data-mining-bots-before-they-steal-your-content-22o4