AI এজেন্ট স্ক্র্যাপিংকে সহজ করে তোলে। মার্কেটপ্লেস স্টেট (Marketplace State) হলো সেই জায়গা যেখানে তারা ভুল করে।
AI এজেন্ট স্ক্র্যাপিংকে সহজ করে তোলে। একটি এজেন্টকে একটি পেজ দিন। JSON চান। আপনি একটি পরিষ্কার অবজেক্ট পাবেন। এটি দরকারী মনে হয়। কিন্তু এটি যথেষ্ট নয়।
মার্কেটপ্লেস স্ক্র্যাপিংয়ের কঠিন অংশ ডেটা এক্সট্রাক্ট করা নয়। কঠিন অংশ হলো ডেটাটি আপনি যা ভাবছেন তা-ই বোঝাচ্ছে কি না তা নিশ্চিত করা। একটি স্ক্র্যাপার একটি ভ্যালিড রেসপন্স প্রদান করে। এটি পেজটি পার্স (parse) করে। এটি দাম এক্সট্রাক্ট করে। তবুও ডেটা ভুল হতে পারে।
পেজটি লোড হয়েছে। সিলেক্টর কাজ করেছে। JSON ভ্যালিড। কিন্তু মার্কেটপ্লেস স্টেট ভুল।
এই উদাহরণগুলো দেখুন:
- আইটেমটি সার্চে দেখাচ্ছে কিন্তু বিক্রি হয়ে গেছে।
- আইটেমটি নেই। এটি বিক্রি হয়েছে নাকি মুছে ফেলা হয়েছে তা আপনি জানেন না।
- বিক্রেতা ইতালিতে। পেজটি ফ্রান্সে।
- সার্চ টার্মটি আপনার মডেলের বদলে একটি সমজাতীয় মডেলের সাথে মিলে যাচ্ছে।
- কম দামের মানে হলো আইটেমটি নষ্ট।
AI এক্সট্রাকশন একটি মিথ্যা আত্মবিশ্বাস তৈরি করে। এটি ডেটাকে মার্কেটপ্লেসের প্রকৃত অবস্থার চেয়েও বেশি পরিষ্কার দেখায়। একটি ক্যাটালগে থাকে প্রোডাক্ট। একটি মার্কেটপ্লেসে থাকে স্টেট (state)।
একটি ক্যাটালগের জন্য পরিষ্কার JSON যথেষ্ট। একটি রিসেল মার্কেটপ্লেসের জন্য আপনার ভিন্ন ধরণের ডেটা প্রয়োজন। আপনার প্রয়োজন সঠিক বা সত্য ডেটা।
মার্কেটপ্লেস ডেটার ওপর আস্থা রাখার আগে এই সাতটি বিষয় যাচাই করুন:
- রেকর্ডের ধরন: অ্যাক্টিভ লিস্টিং থেকে বিক্রি হয়ে যাওয়া লিস্টিংগুলোকে আলাদা করুন।
- ট্র্যাকিং: যদি কোনো আইটেম অদৃশ্য হয়ে যায়, তবে একটি রেকর্ড তৈরি করুন। পরিবর্তন একটি সংকেত।
- লোকাল (Locale): সার্চের দেশ এবং বিক্রেতার দেশ আলাদাভাবে সংরক্ষণ করুন।
- সার্চ লজিক: সার্চ ইঞ্জিনের ওপর পুরোপুরি ভরসা করবেন না। নির্দিষ্ট শব্দ ব্যবহার করুন।
- কন্ডিশন: কন্ডিশন বা অবস্থা উল্লেখ না করে শুধু কম দাম মানে হলো অসম্পূর্ণ ডেটা।
- দামের পরিবর্তন: দাম বেড়েছে নাকি কমেছে তা ট্র্যাক করুন।
- ঝুঁকির সংকেত: মানুষের পর্যালোচনার জন্য একই ধরণের লিস্টিংগুলোকে ফ্ল্যাগ করুন।
AI আপনাকে সাহায্য করে। এটি টাইটেলগুলোকে নরমালাইজ (normalize) করে। এটি ক্যাটাগরিগুলো ক্লাসিফাই (classify) করে। এটি ডেসক্রিপশনগুলো সামারি (summarize) করে। AI-কে অনিশ্চয়তা লুকিয়ে ফেলার সুযোগ দেবেন না।
সেরা আউটপুট মানেই সবচেয়ে পরিষ্কার JSON নয়। সেরা আউটপুট হলো সেটি যা সিদ্ধান্তের জন্য প্রয়োজনীয় প্রেক্ষাপট (context) বজায় রাখে। যদি একটি স্ক্র্যাপার স্টেট উপেক্ষা করে, তবে সেই আউটপুটের ওপর আস্থা রাখবেন না।
সিলেক্টর হলো প্রথম স্তর। আসল প্রোডাক্ট হলো স্টেট মডেল (state model)।
আপনার স্ক্র্যাপার থেকে পাওয়া সবচেয়ে বিপজ্জনক ফলস-পজিটিভ (false-positive) কোনটি ছিল?
Source: https://dev.to/datakaz/ai-agents-make-scraping-look-easy-marketplace-state-is-where-they-lie-56hk