عاملهای هوش مصنوعی استخراج داده را آسان جلوه میدهند. مشکل اصلی در وضعیت بازار است.
عاملهای هوش مصنوعی استخراج داده را آسان جلوه میدهند. یک صفحه به عامل بدهید. درخواست JSON کنید. یک شیء (object) تمیز دریافت میکنید. این مفید به نظر میرسد. اما کافی نیست.
بخش دشوار استخراج داده از بازار، استخراج خودِ دادهها نیست. بخش دشوار این است که بدانید آیا دادهها واقعاً همان چیزی هستند که شما فکر میکنید. یک اسکرپر (scraper) پاسخی معتبر برمیگرداند. صفحه را تجزیه (parse) میکند. قیمت را استخراج میکند. اما دادهها همچنان غلط هستند.
صفحه بارگذاری شد. انتخابگر (selector) کار کرد. JSON معتبر است. اما وضعیت بازار (marketplace state) اشتباه است.
این مثالها را ببینید:
- کالا در نتایج جستجو هست اما فروخته شده است.
- کالا ناپدید شده است. نمیدانید فروخته شده یا حذف شده است.
- فروشنده در ایتالیاست، اما صفحه مربوط به فرانسه است.
- عبارت جستجو با مدلی مشابه مطابقت دارد، نه مدل مدنظر شما.
- قیمت پایین به این معناست که کالا خراب است.
استخراج توسط هوش مصنوعی، اعتماد کاذب ایجاد میکند. باعث میشود دادهها تمیزتر از آنچه واقعاً در بازار هست به نظر برسند. یک کاتالوگ دارای محصولات است. یک بازار دارای وضعیت (state) است.
برای یک کاتالوگ، JSON تمیز کار میکند. برای یک بازار بازفروش (resale marketplace)، به ساختار متفاوتی نیاز دارید. شما به دادههای صادقانه نیاز دارید.
قبل از اعتماد به دادههای بازار، این هفت مورد را بررسی کنید:
- نوع رکورد: لیستهای فعال را از لیستهای فروختهشده جدا کنید.
- ردیابی: اگر کالایی ناپدید شد، یک رکورد ایجاد کنید. تغییر، یک سیگنال است.
- موقعیت مکانی (Locale): کشورِ جستجو و کشورِ فروشنده را جداگانه ذخیره کنید.
- منطق جستجو: به موتور جستجو اعتماد نکنید. کلمات خاصی را الزامی کنید.
- وضعیت کالا (Condition): قیمت پایین بدون ذکر وضعیت کالا، دادهای ناقص است.
- تغییرات قیمت: ردیابی کنید که آیا قیمت بالا رفته یا پایین آمده است.
- سیگنالهای ریسک: لیستهای مشابه را برای بررسی انسانی علامتگذاری کنید.
هوش مصنوعی به شما کمک میکند. عناوین را استانداردسازی میکند. دستهبندیها را طبقهبندی میکند. توضیحات را خلاصه میکند. اجازه ندهید هوش مصنوعی عدم قطعیت را پنهان کند.
بهترین خروجی، تمیزترین JSON نیست. بهترین خروجی، حفظ بافت (context) برای تصمیمگیری است. اگر یک اسکرپر وضعیت (state) را نادیده بگیرد، به خروجی آن اعتماد نکنید.
انتخابگرها (Selectors) لایه اول هستند. محصول واقعی، مدلِ وضعیت (state model) است.
خطرناکترین مورد مثبت کاذب (false-positive) که اسکرپر شما برگردانده، چه بوده است؟
Source: https://dev.to/datakaz/ai-agents-make-scraping-look-easy-marketplace-state-is-where-they-lie-56hk