رباتهای استخراج داده را پیش از آنکه محتوای شما را بدزدند، متوقف کنید
رباتهای استخراج داده (Data mining bots)، محتوا، ساختار و ترافیک شما را میدزدند. آنها کاتالوگ محصولات، توضیحات و قیمتهای شما را یکشبه کپی میکنند. یک روز شما در رتبهی اول هستید و روز بعد، سایتهای کپی (mirror sites) از دقیقاً همان دادههای شما برای رقابت با شما استفاده میکنند.
شما نمیتوانید جلوی هر رباتی را بگیرید. هدف شما این است که فرآیند استخراج داده (scraping) را برای آنها بسیار پرهزینه و کند کنید.
چگونه یک اسکرپر (scraper) را شناسایی کنیم:
- درخواستهای صفحه با سرعتی بسیار بیشتر از توان انسان انجام میشوند.
- خزندهها (Crawlers) بدون کلیک کردن روی لینکها به صفحات دسترسی پیدا میکنند.
- جهش ناگهانی ترافیک در ساعات غیرمعمول.
- یک IP واحد در عرض ۲۰ ثانیه به ۲۰۰ صفحه درخواست میفرستد.
چگونه از سایت خود محافظت کنید:
استفاده از محدودیت نرخ (Rate Limiting) برای تعداد درخواستهایی که یک IP میتواند ارسال کند، محدودیت تعیین کنید. اگر یک IP درخواستهای بیش از حد ارسال کرد، آنها را محدود یا مسدود کنید.
پیادهسازی تشخیص رفتاری (Behavioral Detection) رباتها جاوااسکریپت (JavaScript) را بلافاصله بارگذاری میکنند، اما انسانها اینطور نیستند. از ابزارهایی استفاده کنید که حرکت نشانگر موس و سرعت تعامل را برای تشخیص آنها از هم بررسی میکنند.
امنیت APIهای خود را تامین کنید APIهای عمومی بدون محدودیت، حفرههای امنیتی بزرگی هستند. نقاط انتهایی (endpoints) خود را پشت کلیدها یا توکنها قرار دهید. تعداد فراخوانیهایی که یک کلید واحد میتواند انجام دهد را محدود کنید.
استفاده از محتوای پویا (Dynamic Content) محتوای اصلی خود را تنها پس از تعامل کاربر بارگذاری کنید. این کار از استخراج انبوه متن توسط رباتها در طول یک خزیدن (crawl) ساده جلوگیری میکند.
بهرهگیری از CDN از CDN خود برای مسدود کردن شبکههای رباتی شناختهشده استفاده کنید. همچنین میتوانید ترافیک مشکوک را با یک بررسی میانی (interstitial check) به چالش بکشید.
ایجاد مانع (Friction) برای محتواهای باارزش، از موانع سادهای مانند الزام وارد کردن ایمیل استفاده کنید. اکثر اسکرپرها از این مرحله عبور نخواهند کرد.
از اعمال راهکارهای عمومی دست بردارید. ارزشمندترین دادههای خود را پیدا کنید و از آن نقاط حساس محافظت کنید. اگر فرآیند استخراج را دشوار و کلافهکننده کنید، اکثر رباتها به سراغ هدف آسانتری خواهند رفت.
منبع: https://dev.to/julianneagu/stop-data-mining-bots-before-they-steal-your-content-22o4