𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗠𝗮𝗸𝗲 𝗦𝗰𝗿𝗮𝗽𝗶𝗻𝗴 𝗟𝗼𝗼𝗸 𝗘𝗮𝘀𝘆. 𝗠𝗮𝗿𝗸𝗲𝘁𝗽𝗹𝗮𝗰𝗲 𝗦𝘁𝗮𝘁𝗲 𝗜𝘀 𝗪𝗵𝗲𝗿𝗲 𝗧𝗵𝗲𝘆 𝗟𝗶𝗲. AIエージェントはスクレイピングを容易に見せる。マーケットプレイスの「状態」にこそ、落とし穴がある。

AIエージェントは、スクレイピングを簡単そうに見せる。 エージェントにページを与える。 JSONを要求する。 きれいなオブジェクトが得られる。 これは便利に感じられる。 しかし、それだけでは不十分だ。

マーケットプレイスのスクレイピングにおいて難しいのは、データの抽出ではない。 本当に難しいのは、そのデータが「自分が思っている通りの意味を持っているか」を知ることだ。 スクレイパーは有効なレスポンスを返す。 ページを解析する。 価格を抽出する。 それでも、データは間違っている。

ページは読み込まれた。 セレクターは機能した。 JSONは有効だ。 しかし、マーケットプレイスの状態(ステート)が間違っている。

次の例を見てほしい:

  • 商品は検索結果に表示されているが、売り切れである。
  • 商品が消えている。売れたのか、削除されたのか分からない。
  • セラーはイタリアにいる。ページはフランスのものだ。
  • 検索ワードが、探しているモデルではなく、似たモデルに一致している。
  • 低価格なのは、商品が壊れているからだ。

AIによる抽出は、誤った自信を生む。 データが、実際のマーケットプレイスよりもきれいであるかのように見せてしまう。 カタログには「商品」がある。 マーケットプレイスには「状態(ステート)」がある。

カタログであれば、きれいなJSONで事足りる。 再販マーケットプレイスには、異なる形が必要だ。 必要なのは、誠実なデータだ。

マーケットプレイスのデータを信頼する前に、次の7つの点を確認すること:

  • レコードタイプ:出品中のリストと売り切れのリストを分ける。
  • トラッキング:商品が消えた場合、その記録を作成する。変化こそがシグナルである。
  • ロケール:検索対象の国とセラーの所在国を分けて保存する。
  • 検索ロジック:検索エンジンを過信しない。特定のキーワードを必須とする。
  • コンディション:コンディション情報のない低価格は、不完全なデータである。
  • 価格変動:価格が上がったのか下がったのかを追跡する。
  • リスクシグナル:類似した出品をフラグ立てし、人間が確認できるようにする。

AIは助けになる。 タイトルを正規化してくれる。 カテゴリを分類してくれる。 説明文を要約してくれる。 AIに「不確実性」を隠させてはならない。

最良のアウトプットとは、最もきれいなJSONのことではない。 最良のアウトプットとは、意思決定のためのコンテキストを保持していることだ。 スクレイパーが「状態」を無視しているなら、そのアウトプットを信頼してはいけない。

セレクターは第一層に過ぎない。 真のプロダクトは、状態モデル(ステートモデル)である。

あなたのスクレイパーが返した、最も危険な偽陽性(誤検知)は何ですか?

Source: https://dev.to/datakaz/ai-agents-make-scraping-look-easy-marketplace-state-is-where-they-lie-56hk