Ngăn chặn Bot Khai thác Dữ liệu trước khi chúng đánh cắp nội dung của bạn
Các bot khai thác dữ liệu đánh cắp nội dung, cấu trúc và lưu lượng truy cập của bạn. Chúng sao chép danh mục sản phẩm, mô tả và giá cả của bạn chỉ sau một đêm. Hôm nay bạn đứng đầu bảng xếp hạng. Ngày mai, các trang web bản sao đã sử dụng chính xác dữ liệu của bạn để cạnh tranh với bạn.
Bạn không thể ngăn chặn mọi loại bot. Mục tiêu của bạn là khiến việc scraping trở nên quá tốn kém và chậm chạp đối với chúng.
Cách nhận diện một scraper:
- Các yêu cầu trang diễn ra quá nhanh so với một con người.
- Các crawler truy cập các trang mà không nhấp vào các liên kết.
- Lưu lượng truy cập tăng đột biến vào những khung giờ bất thường.
- Một địa chỉ IP duy nhất truy cập 200 trang trong 20 giây.
Cách bảo vệ trang web của bạn:
Sử dụng Rate Limiting Thiết lập ranh giới về số lượng yêu cầu mà một IP có thể thực hiện. Nếu một IP gửi quá nhiều yêu cầu, hãy giới hạn hoặc chặn chúng.
Triển khai Phát hiện Hành vi Bot tải JavaScript ngay lập tức. Con người thì không. Hãy sử dụng các công cụ theo dõi chuyển động con trỏ và tốc độ tương tác để phân biệt chúng.
Bảo mật API của bạn Các API công khai không có giới hạn là những lỗ hổng rò rỉ dữ liệu khổng lồ. Hãy đặt các endpoint của bạn sau các khóa (keys) hoặc mã thông báo (tokens). Giới hạn số lượng cuộc gọi mà một khóa đơn lẻ có thể thực hiện.
Sử dụng Nội dung Động Chỉ tải nội dung chính sau khi có sự tương tác của người dùng. Điều này ngăn chặn bot trích xuất văn bản hàng loạt trong quá trình crawl đơn giản.
Tận dụng CDN của bạn Sử dụng CDN để chặn các mạng lưới bot đã biết. Bạn cũng có thể thử thách các lưu lượng truy cập đáng ngờ bằng một bước kiểm tra trung gian (interstitial check).
Tạo ra rào cản Sử dụng các cổng kiểm soát đơn giản như yêu cầu email đối với các nội dung có giá trị cao. Hầu hết các scraper sẽ không vượt qua được giai đoạn này.
Đừng áp dụng những cách khắc phục chung chung nữa. Hãy tìm ra những dữ liệu có giá trị nhất của bạn và bảo vệ các điểm trọng yếu đó. Nếu bạn khiến việc trích xuất dữ liệu trở nên khó khăn, hầu hết các bot sẽ chuyển sang một mục tiêu dễ dàng hơn.
Nguồn: https://dev.to/julianneagu/stop-data-mining-bots-before-they-steal-your-content-22o4