الوكلاء الذكيون (AI Agents) يجعلون عملية الكشط (Scraping) تبدو سهلة. لكن حالة السوق (Marketplace State) هي مكمن الخلل.
الوكلاء الذكيون يجعلون عملية الكشط تبدو سهلة. أعطِ الوكيل صفحة. اطلب منه JSON. ستحصل على كائن (object) نظيف. يبدو هذا مفيداً. لكنه ليس كافياً.
الجزء الصعب في كشط بيانات الأسواق ليس استخراج البيانات. الجزء الصعب هو معرفة ما إذا كانت البيانات تعني ما تظن أنها تعنيه. يعيد برنامج الكشط استجابة صالحة. يقوم بتحليل الصفحة. يستخرج السعر. ومع ذلك، تظل البيانات خاطئة.
تم تحميل الصفحة. عمل المحدد (selector) بنجاح. الـ JSON صالح. لكن حالة السوق خاطئة.
انظر إلى هذه الأمثلة:
- المنتج يظهر في نتائج البحث ولكنه مُباع.
- المنتج اختفى. لا تعرف ما إذا كان قد بيع أم تم حذفه.
- البائع في إيطاليا، بينما الصفحة في فرنسا.
- مصطلح البحث يطابق طرازاً مشابهاً، وليس الطراز الذي تبحث عنه.
- السعر المنخفض يعني أن المنتج معطل.
الاستخراج بواسطة الذكاء الاصطناعي يخلق ثقة زائفة. فهو يجعل البيانات تبدو أكثر ترتيباً مما هي عليه في الواقع في السوق. الكتالوج يحتوي على منتجات. أما السوق فيحتوي على "حالة" (state).
بالنسبة للكتالوج، فإن JSON نظيف يفي بالغرض. أما بالنسبة لسوق إعادة البيع، فأنت بحاجة إلى شكل مختلف. أنت بحاجة إلى بيانات صادقة.
تحقق من هذه الأشياء السبعة قبل الوثوق ببيانات السوق:
- نوع السجل: افصل القوائم النشطة عن القوائم المباعة.
- التتبع: إذا اختفى منتج ما، فقم بإنشاء سجل. التغيير هو إشارة (signal).
- الموقع (Locale): قم بتخزين بلد البحث وبلد البائع بشكل منفصل.
- منطق البحث: لا تثق في محرك البحث. اطلب كلمات محددة.
- الحالة: السعر المنخفض بدون ذكر حالة المنتج هو بيانات غير مكتملة.
- حركة السعر: تتبع ما إذا كان السعر قد ارتفع أو انخفض.
- إشارات المخاطر: ضع علامة على القوائم المتشابهة للمراجعة البشرية.
الذكاء الاصطناعي يساعدك. فهو يوحد العناوين. ويصنف الفئات. ويلخص الأوصاف. لا تدع الذكاء الاصطناعي يخفي عدم اليقين.
أفضل مخرجات ليست هي الـ JSON الأكثر نظافة. أفضل المخرجات هي التي تحافظ على السياق لاتخاذ قرار. إذا تجاهل برنامج الكشط "الحالة"، فلا تثق في المخرجات.
المحددات (Selectors) هي الطبقة الأولى. المنتج الحقيقي هو نموذج الحالة (state model).
ما هي أخطر نتيجة إيجابية خاطئة (false-positive) أعادها برنامج الكشط الخاص بك؟
المصدر: https://dev.to/datakaz/ai-agents-make-scraping-look-easy-marketplace-state-is-where-they-lie-56hk