𝗦𝘁𝗼𝗽 𝗗𝗮𝘁𝗮 𝗠𝗶𝗻𝗶𝗻𝗴 𝗕𝗼𝘁𝘀 𝗕𝗲𝗳𝗼𝗿𝗲 𝗧𝗵𝗲𝘆 𝗦𝘁𝗲𝗮𝗹 𝗬𝗼𝘂𝗿 𝗖𝗼𝗻𝘁𝗲𝗻𝘁

📅4 hours ago⏱1 min read

Data mining bots ขโมยเนื้อหา โครงสร้าง และทราฟฟิกของคุณ พวกมันคัดลอกแคตตาล็อกสินค้า คำอธิบาย และราคาของคุณเพียงชั่วข้ามคืน วันหนึ่งคุณอาจอยู่อันดับหนึ่ง แต่อีกวันหนึ่ง mirror sites กลับใช้ข้อมูลชุดเดียวกันเป๊ะเพื่อมาแข่งกับคุณ

คุณไม่สามารถหยุดบอททุกตัวได้ เป้าหมายของคุณคือการทำให้การ scraping มีต้นทุนที่สูงเกินไปและล่าช้าเกินไปสำหรับพวกมัน

วิธีระบุตัวตนของ scraper:

มีการเรียกหน้าเว็บ (Page requests) เร็วเกินกว่าที่มนุษย์จะทำได้
Crawlers เข้าถึงหน้าเว็บโดยไม่มีการคลิกลิงก์
ทราฟฟิกพุ่งสูงขึ้นในเวลาที่ผิดปกติ
IP เดียวกันเข้าถึง 200 หน้าภายใน 20 วินาที

วิธีปกป้องเว็บไซต์ของคุณ:

Use Rate Limiting กำหนดขอบเขตจำนวนครั้งที่ IP หนึ่งสามารถส่งคำขอได้ หาก IP ส่งคำขอมากเกินไป ให้จำกัดจำนวนหรือบล็อกไปเลย
Implement Behavioral Detection บอทจะโหลด JavaScript ทันที แต่มนุษย์ไม่ทำเช่นนั้น ให้ใช้เครื่องมือที่ตรวจสอบการเคลื่อนที่ของเคอร์เซอร์และความเร็วในการโต้ตอบเพื่อแยกแยะความแตกต่าง
Secure Your APIs Public APIs ที่ไม่มีการจำกัดคือช่องโหว่ขนาดใหญ่ ควรนำ endpoints ของคุณไปไว้หลัง keys หรือ tokens และจำกัดจำนวนครั้งที่ key แต่ละตัวสามารถเรียกใช้งานได้
Use Dynamic Content โหลดเนื้อหาหลักของคุณหลังจากมีการโต้ตอบจากผู้ใช้เท่านั้น วิธีนี้จะช่วยป้องกันไม่ให้บอทดึงข้อความจำนวนมากออกไปในระหว่างการ crawl แบบธรรมดา
Leverage your CDN ใช้ CDN ของคุณเพื่อบล็อกเครือข่ายบอทที่รู้จัก นอกจากนี้ คุณยังสามารถตรวจสอบทราฟฟิกที่น่าสงสัยด้วยการทำ interstitial check
Create Friction ใช้ด่านตรวจง่ายๆ เช่น การกำหนดให้ต้องใช้อีเมลสำหรับเนื้อหาที่มีมูลค่าสูง Scraper ส่วนใหญ่จะไม่สามารถผ่านขั้นตอนนี้ไปได้

เลิกใช้วิธีแก้ปัญหาแบบทั่วไป (generic fixes) ให้ค้นหาข้อมูลที่มีมูลค่าสูงสุดของคุณและปกป้องจุดสำคัญเหล่านั้น หากคุณทำให้การดึงข้อมูลเป็นเรื่องที่น่าหงุดหงิด บอทส่วนใหญ่จะย้ายไปหาเป้าหมายที่ง่ายกว่าแทน

Source: https://dev.to/julianneagu/stop-data-mining-bots-before-they-steal-your-content-22o4

𝗦𝘁𝗼𝗽 𝗗𝗮𝘁𝗮 𝗠𝗶𝗻𝗶𝗻𝗴 𝗕𝗼𝘁𝘀 𝗕𝗲𝗳𝗼𝗿𝗲 𝗧𝗵𝗲𝘆 𝗦𝘁𝗲𝗮𝗹 𝗬𝗼𝘂𝗿 𝗖𝗼𝗻𝘁𝗲𝗻𝘁

Continue reading

𝗗𝗼 𝗡𝗼𝘁 𝗟𝗲𝘁 𝗔𝗜 𝗘𝗿𝗮𝘀𝗲 𝗬𝗼𝘂𝗿 𝗞𝗻𝗼𝘄𝗹𝗲𝗱𝗴𝗲

การสร้างงบประมาณด้านประสิทธิภาพที่เน้นนักพัฒนาเป็นหลัก

𝗣𝗿𝗼𝘁𝗲𝗰𝘁𝗶𝗻𝗴 𝗣𝗿𝗼𝗽𝗿𝗶𝗲𝘁𝗮𝗿𝘆 𝗪𝗼𝗿𝗸𝗳𝗹𝗼𝘄𝘀

𝗙𝗿𝗼𝗺 𝗗𝗮𝘁𝗮 𝗗𝗲𝗹𝘂𝗴𝗲 𝘁𝗼 𝗗𝗶𝗴𝗶𝘁𝗮𝗹 𝗗𝗲𝘁𝗲𝗰𝘁𝗶𝘃𝗲: 𝗔𝗜 𝗣𝗼𝘄𝗲𝗿𝗲𝗱 𝗧𝗿𝗶𝗮𝗴𝗲 𝗳𝗼𝗿 𝗦𝗼𝗹𝗼

𝗣𝗿𝗲𝗱𝗶𝗰𝘁𝗶𝗼𝗻𝘀 𝗙𝗶𝗿𝘀𝘁, 𝗗𝗮𝘁𝗮 𝗟𝗮𝘁𝗲𝗿