콘텐츠를 탈취당하기 전에 데이터 마이닝 봇을 차단하세요
데이터 마이닝 봇은 귀하의 콘텐츠, 구조 및 트래픽을 훔쳐갑니다. 이들은 하룻밤 사이에 제품 카탈로그, 설명 및 가격을 복제합니다. 어제까지는 검색 순위 1위였더라도, 다음 날이면 미러 사이트들이 귀하의 데이터를 그대로 사용하여 경쟁자로 나타날 수 있습니다.
모든 봇을 막을 수는 없습니다. 목표는 스크래핑 비용을 너무 높게 만들고 속도를 늦추어 그들이 포기하게 만드는 것입니다.
스크래퍼를 식별하는 방법:
- 사람이 하기에는 페이지 요청 속도가 너무 빠릅니다.
- 크롤러가 링크를 클릭하지 않고 페이지에 접속합니다.
- 비정상적인 시간대에 트래픽이 급증합니다.
- 단일 IP가 20초 만에 200개의 페이지에 접속합니다.
사이트를 보호하는 방법:
Rate Limiting 사용 IP당 요청 횟수에 제한을 둡니다. 특정 IP가 너무 많은 요청을 보내면 횟수를 제한하거나 차단하십시오.
행동 탐지(Behavioral Detection) 구현 봇은 JavaScript를 즉시 로드하지만, 사람은 그렇지 않습니다. 커서 움직임과 상호작용 속도를 분석하여 봇과 사람을 구분하는 도구를 사용하십시오.
API 보안 강화 제한이 없는 공개 API는 심각한 데이터 유출 경로가 됩니다. 엔드포인트에 키(key)나 토큰(token)을 적용하십시오. 단일 키가 호출할 수 있는 횟수를 제한하십시오.
동적 콘텐츠 사용 사용자의 상호작용이 발생한 후에만 주요 콘텐츠를 로드하십시오. 이를 통해 단순 크롤링 과정에서 봇이 텍스트를 대량으로 추출하는 것을 방지할 수 있습니다.
CDN 활용 CDN을 사용하여 알려진 봇 네트워크를 차단하십시오. 또한 의심스러운 트래픽에 대해 중간 확인(interstitial check) 단계를 거치도록 설정할 수 있습니다.
허들(Friction) 만들기 가치가 높은 콘텐츠에는 이메일 인증과 같은 간단한 관문을 설정하십시오. 대부분의 스크래퍼는 이 단계를 통과하지 못할 것입니다.
일반적인 해결책만 적용하는 것을 멈추십시오. 가장 가치 있는 데이터를 찾아 그 핵심 지점(pressure points)들을 보호해야 합니다. 데이터 추출 과정을 까다롭게 만들면, 대부분의 봇은 더 쉬운 타겟을 찾아 떠날 것입니다.
출처: https://dev.to/julianneagu/stop-data-mining-bots-before-they-steal-your-content-22o4