𝗔𝗜 에이전트는 스크래핑을 쉬워 보이게 만든다. 마켓플레이스의 상태가 바로 그 함정이다.
AI 에이전트는 스크래핑을 쉬워 보이게 만듭니다. 에이전트에게 페이지를 줍니다. JSON을 요청합니다. 깔끔한 객체를 얻습니다. 이것은 유용해 보입니다. 하지만 이것만으로는 충분하지 않습니다.
마켓플레이스 스크래핑의 어려운 점은 데이터를 추출하는 것이 아닙니다. 진짜 어려운 점은 데이터가 당신이 생각하는 의미와 일치하는지 아는 것입니다. 스크래퍼는 유효한 응답을 반환합니다. 페이지를 파싱합니다. 가격을 추출합니다. 하지만 데이터는 여전히 틀렸습니다.
페이지가 로드되었습니다. 셀렉터가 작동했습니다. JSON은 유효합니다. 하지만 마켓플레이스의 상태가 잘못되었습니다.
다음 예시들을 살펴보세요:
- 검색 결과에는 나오지만 이미 판매된 상품.
- 상품이 사라졌습니다. 판매된 것인지 삭제된 것인지 알 수 없습니다.
- 판매자는 이탈리아에 있는데, 페이지는 프랑스 기준입니다.
- 검색어가 당신이 찾는 모델이 아닌 유사한 모델과 일치합니다.
- 낮은 가격은 상품이 고장 났음을 의미합니다.
AI 추출은 잘못된 확신을 심어줍니다. 마켓플레이스의 실제 모습보다 데이터를 더 깔끔해 보이게 만듭니다. 카탈로그에는 상품이 있습니다. 마켓플레이스에는 상태(state)가 있습니다.
카탈로그의 경우 깔끔한 JSON이면 충분합니다. 리셀 마켓플레이스의 경우, 다른 형태가 필요합니다. 정직한 데이터가 필요합니다.
마켓플레이스 데이터를 신뢰하기 전에 다음 일곱 가지를 확인하세요:
- 레코드 유형: 활성 매물과 판매된 매물을 분리하세요.
- 추적: 상품이 사라지면 레코드를 생성하세요. 변화는 신호입니다.
- 로캘(Locale): 검색 국가와 판매자 국가를 별도로 저장하세요.
- 검색 로직: 검색 엔진을 맹신하지 마세요. 특정 단어를 요구하세요.
- 상태(Condition): 상태 정보가 없는 낮은 가격은 불완전한 데이터입니다.
- 가격 변동: 가격이 올랐는지 내렸는지 추적하세요.
- 리스크 신호: 유사한 매물은 사람이 검토할 수 있도록 플래그를 지정하세요.
AI는 도움을 줍니다. 제목을 정규화합니다. 카테고리를 분류합니다. 설명을 요약합니다. AI가 불확실성을 숨기게 두지 마세요.
최고의 결과물은 가장 깔끔한 JSON이 아닙니다. 최고의 결과물은 의사결정을 위한 맥락을 보존하는 것입니다. 스크래퍼가 상태를 무시한다면, 그 결과물을 신뢰하지 마세요.
셀렉터는 첫 번째 단계일 뿐입니다. 진정한 제품은 상태 모델(state model)입니다.
여러분의 스크래퍼가 반환한 가장 위험한 오탐(false-positive)은 무엇이었나요?
출처: https://dev.to/datakaz/ai-agents-make-scraping-look-easy-marketplace-state-is-where-they-lie-56hk