AI 에이전트가 인간처럼 행동할 수 있을까?

StoryCaptcha를 테스트하는 데 12시간을 보냈습니다. 이것은 실험적인 CAPTCHA입니다. 신호등을 찾으라고 요구하지 않습니다. 대신 프롬프트를 바탕으로 이야기를 써달라고 요청합니다. 그런 다음 사용자의 행동을 분석하여 인간인지 확인합니다.

Playwright, VS Code, GitHub Copilot, Chromium을 사용했습니다. 제 목표는 AI 에이전트가 인간의 패턴을 모방할 수 있는지 확인하는 것이었습니다.

첫 번째 시도는 100점 만점에 56점으로 실패했습니다. AI는 너무 효율적이었습니다. 텍스트를 복사해서 붙여넣었습니다. 망설임 없이 즉각적으로 행동했습니다. 완벽한 패턴을 따랐습니다. 자동화는 효율적이지만, 인간적이지는 않습니다.

StoryCaptcha는 추적하는 지표를 다음과 같이 보여줍니다:

  • 타이핑 vs 붙여넣기 (Typed vs Pasted)
  • 키 입력 리듬 (Keystroke rhythm)
  • 인지적 일시 정지 (Cognitive pauses)
  • 마우스 경로 곡률 (Mouse path curvature)
  • 백스페이스 사용 (Backspace usage)
  • 수정 동작 (Correction behavior)

저는 에이전트를 조정하기 시작했습니다.

우선, 에이전트가 붙여넣기를 하지 못하게 막았습니다. 한 글자씩 타이핑하도록 명령했습니다. 점수가 올라갔습니다.

다음으로, 타이핑 리듬을 조절했습니다. 인간은 완벽한 타이밍으로 타이핑하지 않습니다. 생각하느라 멈추기도 하고, 빨라졌다가 느려지기도 합니다. 키 사이사이에 무작위 지연 시간을 추가했습니다. 점수가 다시 올라갔습니다.

그다음에는 실수를 추가했습니다. 인간은 단어 철자를 틀리기도 합니다. 그리고 백스페이스를 사용해 이를 수정합니다. 에이전트에게 오류를 범하고 이를 수정하도록 지시했습니다. 점수가 더욱 향상되었습니다.

마우스 움직임도 변경했습니다. 인간은 마우스를 직선으로 움직이지 않습니다. 마우스를 이리저리 움직이며 탐색합니다. 마우스 경로에 곡률을 추가했습니다.

점수가 올랐음에도 불구하고 한 가지 지표는 0%에 머물렀습니다. 바로 키 중첩(key-overlap)이었습니다. 인간은 종종 이전 키를 떼기 전에 다음 키를 누릅니다. 대부분의 자동화는 완벽하게 순차적인 신호를 보냅니다. 이는 흉내 내기 매우 어려운 패턴입니다.

결과:

  • 초기 점수: 56
  • 중간 점수: 60–70
  • 최적화 점수: 76–77

에이전트는 결국 통과했습니다. 하지만 진짜 교훈은 점수가 아니었습니다. 대부분의 사람들은 브라우저 핑거프린트나 IP 주소에 집중합니다. 이 실험은 행동이 강력한 신호라는 것을 증명합니다.

단순히 무엇을 하느냐가 아니라, 어떻게 하느냐가 중요합니다.

AI 에이전트가 발전함에 따라 행동 탐지는 필수적인 요소가 될 것입니다. 인간다움의 가장 어려운 부분은 과업 그 자체가 아니라, 바로 불완전함에 있습니다.

Source: https://dev.to/shahraan_hussain_b42640e7/can-an-ai-agent-behave-like-a-human-a-12-hour-experiment-with-storycaptcha-1661

Optional learning community: https://t.me/GyaanSetuAi