𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗠𝗮𝗸𝗲 𝗦𝗰𝗿𝗮𝗽𝗶𝗻𝗴 𝗟𝗼𝗼𝗸 𝗘𝗮𝘀𝘆. 𝗠𝗮𝗿𝗸𝗲𝘁𝗽𝗹𝗮𝗰𝗲 𝗦𝘁𝗮𝘁𝗲 𝗜𝘀 𝗪𝗵𝗲𝗿𝗲 𝗧𝗵𝗲𝘆 𝗟𝗶𝗲.
AI एजंट्स स्क्रॅपिंग सोपे वाटायला लावतात. एजंटला एक पेज द्या. JSON मागा. तुम्हाला एक स्वच्छ (clean) ऑब्जेक्ट मिळेल. हे उपयुक्त वाटते. पण ते पुरेसे नाही.
मार्केटप्लेस स्क्रॅपिंगमधील कठीण भाग डेटा काढणे (extracting data) हा नाही. कठीण भाग म्हणजे डेटाचा अर्थ तुम्ही जो समजून घेत आहात, तोच आहे का हे जाणून घेणे. एक स्क्रॅपर वैध (valid) प्रतिसाद देतो. ते पेज पार्स (parse) करते. ते किंमत काढते. तरीही डेटा चुकीचा असतो.
पेज लोड झाले. सिलेक्टर (selector) काम करत होता. JSON वैध आहे. पण मार्केटप्लेसची स्थिती (state) चुकीची आहे.
ही उदाहरणे पहा:
- वस्तू सर्चमध्ये दिसत आहे पण ती विकली गेली आहे.
- वस्तू गायब झाली आहे. ती विकली गेली की हटवली गेली, हे तुम्हाला माहित नाही.
- विक्रेता इटलीमध्ये आहे. पेज फ्रान्समधील आहे.
- सर्च टर्म एखाद्या सारख्या मॉडेलशी जुळते, तुमच्या मॉडेलशी नाही.
- कमी किंमत म्हणजे वस्तू खराब आहे.
AI एक्सट्रॅक्शनमुळे चुकीचा आत्मविश्वास निर्माण होतो. ते डेटा मार्केटप्लेसच्या तुलनेत अधिक स्वच्छ वाटायला लावतात. एका कॅटलॉगमध्ये उत्पादने असतात. एका मार्केटप्लेसमध्ये 'स्टेट' (state) असते.
कॅटलॉगसाठी, स्वच्छ JSON पुरेसे असते. रिसेल मार्केटप्लेससाठी, तुम्हाला वेगळ्या स्वरूपाची गरज असते. तुम्हाला प्रामाणिक डेटा हवा असतो.
मार्केटप्लेस डेटावर विश्वास ठेवण्यापूर्वी या सात गोष्टी तपासा:
- रेकॉर्ड प्रकार (Record type): सक्रिय लिस्टिंग आणि विकलेली लिस्टिंग वेगळी करा.
- ट्रॅकिंग (Tracking): जर एखादी वस्तू गायब झाली, तर त्याचा रेकॉर्ड तयार करा. बदल हा एक संकेत असतो.
- लोकेल (Locale): सर्च कंट्री आणि सेलर कंट्री वेगळी साठवा.
- सर्च लॉजिक (Search logic): सर्च इंजिनवर विश्वास ठेवू नका. विशिष्ट शब्दांची आवश्यकता ठेवा.
- कंडिशन (Condition): कंडिशनशिवाय कमी किंमत हा अपूर्ण डेटा आहे.
- किंमतीतील बदल (Price movement): किंमत वाढली की कमी झाली याचा मागोवा घ्या.
- रिस्क सिग्नल्स (Risk signals): मानवी पुनरावलोकनासाठी (human review) सारख्या लिस्टिंगवर फ्लॅग लावा.
AI तुम्हाला मदत करते. ते टायटल्स नॉर्मलाईज (normalize) करते. ते कॅटेगरी वर्गीकृत (classify) करते. ते वर्णनांचा सारांश (summarize) देते. AI ला अनिश्चितता लपवू देऊ नका.
सर्वोत्तम आउटपुट म्हणजे सर्वात स्वच्छ JSON नाही. सर्वोत्तम आउटपुट ते आहे जे निर्णयासाठी संदर्भ (context) जपते. जर स्क्रॅपर 'स्टेट'कडे दुर्लक्ष करत असेल, तर आउटपुटवर विश्वास ठेवू नका.
सिलेक्टर्स हा पहिला स्तर आहे. खरा प्रॉडक्ट म्हणजे 'स्टेट मॉडेल' (state model) आहे.
तुमच्या स्क्रॅपरने दिलेला सर्वात धोकादायक 'फॉल्स-पॉझिटिव्ह' (false-positive) कोणता होता?
Source: https://dev.to/datakaz/ai-agents-make-scraping-look-easy-marketplace-state-is-where-they-lie-56hk