আপনার কন্টেন্ট চুরি করার আগেই ডেটা মাইনিং বট থামান
ডেটা মাইনিং বট আপনার কন্টেন্ট, স্ট্রাকচার এবং ট্রাফিক চুরি করে। তারা রাতারাতি আপনার প্রোডাক্ট ক্যাটালগ, বিবরণ এবং দাম কপি করে নেয়। একদিন আপনি র্যাঙ্কিংয়ে সবার উপরে থাকেন। পরের দিনই মিরর সাইটগুলো আপনার হুবহু ডেটা ব্যবহার করে আপনার সাথেই প্রতিযোগিতা শুরু করে।
আপনি প্রতিটি বটকে আটকাতে পারবেন না। আপনার লক্ষ্য হওয়া উচিত স্ক্র্যাপিং প্রক্রিয়াটি তাদের জন্য অত্যন্ত ব্যয়বহুল এবং ধীরগতির করে তোলা।
কীভাবে একটি স্ক্র্যাপার শনাক্ত করবেন:
- পেজ রিকোয়েস্টগুলো একজন মানুষের পক্ষে করা অসম্ভব দ্রুত গতিতে ঘটে।
- ক্রলাররা কোনো লিঙ্ক ক্লিক না করেই পেজ অ্যাক্সেস করে।
- অস্বাভাবিক সময়ে ট্রাফিক হঠাৎ বেড়ে যায়।
- একটি মাত্র IP ২০ সেকেন্ডের মধ্যে ২০০টি পেজে হিট করে।
কীভাবে আপনার সাইট সুরক্ষিত রাখবেন:
Use Rate Limiting একটি IP কতগুলো রিকোয়েস্ট করতে পারবে তার একটি সীমা নির্ধারণ করুন। যদি কোনো IP থেকে অতিরিক্ত রিকোয়েস্ট আসে, তবে সেটিকে সীমিত করুন বা ব্লক করে দিন।
Implement Behavioral Detection বটগুলো তাৎক্ষণিকভাবে JavaScript লোড করে, কিন্তু মানুষ পারে না। বট এবং মানুষের মধ্যে পার্থক্য করতে কার্সারের মুভমেন্ট এবং ইন্টারঅ্যাকশন স্পিড পর্যবেক্ষণ করে এমন টুল ব্যবহার করুন।
Secure Your APIs কোনো সীমা ছাড়া পাবলিক API হলো তথ্যের বিশাল ছিদ্র। আপনার এন্ডপয়েন্টগুলোকে (endpoints) কী (key) বা টোকেনের (token) মাধ্যমে সুরক্ষিত রাখুন। একটি নির্দিষ্ট কী দিয়ে কতবার কল করা যাবে তার সীমা নির্ধারণ করুন।
Use Dynamic Content ব্যবহারকারীর ইন্টারঅ্যাকশনের পরেই কেবল আপনার মূল কন্টেন্ট লোড করুন। এটি সাধারণ ক্রলিংয়ের সময় বটগুলোকে বড় আকারে টেক্সট এক্সট্রাক্ট করা থেকে বিরত রাখে।
Leverage your CDN পরিচিত বট নেটওয়ার্কগুলোকে ব্লক করতে আপনার CDN ব্যবহার করুন। আপনি সন্দেহজনক ট্রাফিককে একটি ইন্টারস্টিশিয়াল (interstitial) চেকের মাধ্যমে যাচাই করতে পারেন।
Create Friction উচ্চ-মূল্যের কন্টেন্টের জন্য ইমেল রিকোয়ারমেন্টের মতো সহজ গেট ব্যবহার করুন। বেশিরভাগ স্ক্র্যাপার এই ধাপটি পার হতে পারবে না।
সাধারণ সমাধান প্রয়োগ করা বন্ধ করুন। আপনার সবচেয়ে মূল্যবান ডেটা খুঁজে বের করুন এবং সেই নির্দিষ্ট গুরুত্বপূর্ণ পয়েন্টগুলো সুরক্ষিত করুন। আপনি যদি ডেটা এক্সট্রাকশন প্রক্রিয়াটি কঠিন করে তোলেন, তবে বেশিরভাগ বট সহজেই অন্য কোনো সহজ টার্গেটের দিকে চলে যাবে।
উৎস: https://dev.to/julianneagu/stop-data-mining-bots-before-they-steal-your-content-22o4