عامل‌های هوش مصنوعی استخراج داده را آسان جلوه می‌دهند. مشکل اصلی در وضعیت بازار است.

عامل‌های هوش مصنوعی استخراج داده را آسان جلوه می‌دهند. یک صفحه به عامل بدهید. درخواست JSON کنید. یک شیء (object) تمیز دریافت می‌کنید. این مفید به نظر می‌رسد. اما کافی نیست.

بخش دشوار استخراج داده از بازار، استخراج خودِ داده‌ها نیست. بخش دشوار این است که بدانید آیا داده‌ها واقعاً همان چیزی هستند که شما فکر می‌کنید. یک اسکرپر (scraper) پاسخی معتبر برمی‌گرداند. صفحه را تجزیه (parse) می‌کند. قیمت را استخراج می‌کند. اما داده‌ها همچنان غلط هستند.

صفحه بارگذاری شد. انتخاب‌گر (selector) کار کرد. JSON معتبر است. اما وضعیت بازار (marketplace state) اشتباه است.

این مثال‌ها را ببینید:

  • کالا در نتایج جستجو هست اما فروخته شده است.
  • کالا ناپدید شده است. نمی‌دانید فروخته شده یا حذف شده است.
  • فروشنده در ایتالیاست، اما صفحه مربوط به فرانسه است.
  • عبارت جستجو با مدلی مشابه مطابقت دارد، نه مدل مدنظر شما.
  • قیمت پایین به این معناست که کالا خراب است.

استخراج توسط هوش مصنوعی، اعتماد کاذب ایجاد می‌کند. باعث می‌شود داده‌ها تمیزتر از آنچه واقعاً در بازار هست به نظر برسند. یک کاتالوگ دارای محصولات است. یک بازار دارای وضعیت (state) است.

برای یک کاتالوگ، JSON تمیز کار می‌کند. برای یک بازار بازفروش (resale marketplace)، به ساختار متفاوتی نیاز دارید. شما به داده‌های صادقانه نیاز دارید.

قبل از اعتماد به داده‌های بازار، این هفت مورد را بررسی کنید:

  • نوع رکورد: لیست‌های فعال را از لیست‌های فروخته‌شده جدا کنید.
  • ردیابی: اگر کالایی ناپدید شد، یک رکورد ایجاد کنید. تغییر، یک سیگنال است.
  • موقعیت مکانی (Locale): کشورِ جستجو و کشورِ فروشنده را جداگانه ذخیره کنید.
  • منطق جستجو: به موتور جستجو اعتماد نکنید. کلمات خاصی را الزامی کنید.
  • وضعیت کالا (Condition): قیمت پایین بدون ذکر وضعیت کالا، داده‌ای ناقص است.
  • تغییرات قیمت: ردیابی کنید که آیا قیمت بالا رفته یا پایین آمده است.
  • سیگنال‌های ریسک: لیست‌های مشابه را برای بررسی انسانی علامت‌گذاری کنید.

هوش مصنوعی به شما کمک می‌کند. عناوین را استانداردسازی می‌کند. دسته‌بندی‌ها را طبقه‌بندی می‌کند. توضیحات را خلاصه می‌کند. اجازه ندهید هوش مصنوعی عدم قطعیت را پنهان کند.

بهترین خروجی، تمیزترین JSON نیست. بهترین خروجی، حفظ بافت (context) برای تصمیم‌گیری است. اگر یک اسکرپر وضعیت (state) را نادیده بگیرد، به خروجی آن اعتماد نکنید.

انتخاب‌گرها (Selectors) لایه اول هستند. محصول واقعی، مدلِ وضعیت (state model) است.

خطرناک‌ترین مورد مثبت کاذب (false-positive) که اسکرپر شما برگردانده، چه بوده است؟

Source: https://dev.to/datakaz/ai-agents-make-scraping-look-easy-marketplace-state-is-where-they-lie-56hk