AI ایجنٹس اسکریپنگ کو آسان بنا دیتے ہیں۔ مارکیٹ پلیس کی حالت (state) وہ جگہ ہے جہاں وہ غلطی کرتے ہیں۔
AI ایجنٹس اسکریپنگ کو آسان بنا دیتے ہیں۔ ایک ایجنٹ کو ایک پیج دیں۔ JSON مانگیں۔ آپ کو ایک صاف ستھرا آبجیکٹ (object) مل جاتا ہے۔ یہ مفید محسوس ہوتا ہے۔ یہ کافی نہیں ہے۔
مارکیٹ پلیس اسکریپنگ کا مشکل حصہ ڈیٹا نکالنا (extracting) نہیں ہے۔ مشکل حصہ یہ جاننا ہے کہ آیا ڈیٹا کا وہی مطلب ہے جو آپ سمجھ رہے ہیں۔ ایک اسکریپر ایک درست جواب (response) دیتا ہے۔ یہ پیج کو پارس (parse) کرتا ہے۔ یہ قیمت نکالتا ہے۔ ڈیٹا پھر بھی غلط ہوتا ہے۔
پیج لوڈ ہو گیا۔ سلیکٹر (selector) نے کام کیا۔ JSON درست ہے۔ لیکن مارکیٹ پلیس کی حالت (state) غلط ہے۔
ان مثالوں پر نظر ڈالیں:
- آئٹم سرچ میں نظر آ رہا ہے لیکن بک چکا ہے۔
- آئٹم غائب ہے۔ آپ کو نہیں معلوم کہ وہ بک گیا ہے یا ڈیلیٹ کر دیا گیا ہے۔
- بیچنے والا اٹلی میں ہے۔ پیج فرانس میں ہے۔
- سرچ کی گئی اصطلاح ایک ملتے جلتے ماڈل سے میچ کرتی ہے، آپ کے مطلوبہ ماڈل سے نہیں۔
- کم قیمت کا مطلب ہے کہ آئٹم خراب ہے۔
AI کے ذریعے ڈیٹا نکالنا (extraction) جھوٹی خود اعتمادی پیدا کرتا ہے۔ یہ ڈیٹا کو مارکیٹ پلیس کی اصل صورتحال سے زیادہ صاف ستھرا دکھاتا ہے۔ ایک کیٹلاگ (catalog) میں مصنوعات ہوتی ہیں۔ ایک مارکیٹ پلیس میں حالت (state) ہوتی ہے۔
ایک کیٹلاگ کے لیے، صاف ستھرا JSON کام کرتا ہے۔ ری سیل مارکیٹ پلیس کے لیے، آپ کو ایک مختلف ڈھانچے کی ضرورت ہوتی ہے۔ آپ کو ایماندارانہ ڈیٹا کی ضرورت ہے۔
مارکیٹ پلیس ڈیٹا پر بھروسہ کرنے سے پہلے ان سات چیزوں کو چیک کریں:
- ریکارڈ کی قسم: ایکٹو لسٹنگز کو بک شدہ لسٹنگز سے الگ کریں۔
- ٹریکنگ: اگر کوئی آئٹم غائب ہو جائے تو ایک ریکارڈ بنائیں۔ تبدیلی ایک اشارہ ہے۔
- لوکیل (Locale): سرچ کا ملک اور بیچنے والے کا ملک الگ الگ محفوظ کریں۔
- سرچ لاجک: سرچ انجن پر بھروسہ نہ کریں۔ مخصوص الفاظ کا مطالبہ کریں۔
- حالت (Condition): حالت کے بغیر کم قیمت نامکمل ڈیٹا ہے۔
- قیمت کی تبدیلی: ٹریک کریں کہ قیمت بڑھی ہے یا کم ہوئی ہے۔
- خطرے کے اشارے: انسانی جائزے کے لیے ملتے جلتے لسٹنگز کو نشان زد کریں۔
AI آپ کی مدد کرتا ہے۔ یہ عنوانات کو نارمل (normalize) کرتا ہے۔ یہ کیٹیگریز کو درجہ بندی کرتا ہے۔ یہ تفصیلات کا خلاصہ کرتا ہے۔ AI کو غیر یقینی صورتحال چھپانے نہ دیں۔
بہترین آؤٹ پٹ سب سے صاف ستھرا JSON نہیں ہے۔ بہترین آؤٹ پٹ وہ ہے جو فیصلے کے لیے سیاق و سباق (context) کو برقرار رکھے۔ اگر اسکریپر حالت (state) کو نظر انداز کرتا ہے، تو آؤٹ پٹ پر بھروسہ نہ کریں۔
سلیکٹرز پہلی تہہ ہیں۔ اصل پروڈکٹ اسٹیٹ ماڈل (state model) ہے۔
آپ کے اسکریپر نے سب سے خطرناک 'فالس پازیٹو' (false-positive) کیا دیا تھا؟
Source: https://dev.to/datakaz/ai-agents-make-scraping-look-easy-marketplace-state-is-where-they-lie-56hk