AIエージェントは人間のように振る舞えるのか?
StoryCaptchaのテストに12時間を費やしました。 これは実験的なCAPTCHAです。 信号機を探すよう求めるのではなく、プロンプトに基づいて物語を書くよう求められます。 そして、あなたが人間かどうかを判断するために、その振る舞いをチェックするのです。
Playwright、VS Code、GitHub Copilot、そしてChromiumを使用しました。 私の目的は、AIエージェントが人間のパターンを模倣できるかどうかを確認することでした。
初回の実行は、100点満点中56点という結果で失敗に終わりました。 AIは効率的すぎたのです。 テキストをコピー&ペーストし、躊躇することなく即座に行動しました。 完璧なパターンに従っていました。 自動化は効率的ですが、人間ではありません。
StoryCaptchaは、以下の追跡メトリクスを表示します:
- タイピング vs ペースト
- 打鍵のリズム
- 思考による一時停止
- マウス軌跡の曲線
- Backspaceの使用
- 修正の振る舞い
私はエージェントの調整を開始しました。
まず、エージェントがペーストするのを止めました。 一文字ずつタイピングするように指示しました。 スコアは上がりました。
次に、タイピングのケイデンス(リズム)を修正しました。 人間は完璧なタイミングでタイピングすることはありません。 考え込むために立ち止まったり、速くなったり遅くなったりします。 キーの間にランダムな遅延を追加しました。 スコアは再び上がりました。
それから、ミスを追加しました。 人間は単語の綴りを間違えます。 それを直すためにBackspaceを使います。 エージェントにエラーを起こし、それを修正するように指示しました。 スコアはさらに向上しました。
マウスの動きも変更しました。 人間はマウスを直線的に動かしません。 マウスをホバーさせたり、探索したりします。 マウスの軌跡に曲線を加えました。
スコアが上がっても、0%のまま変わらなかったメトリクスが一つありました。 それはキーのオーバーラップ(key-overlap)です。 人間は、前のキーを離す前に次のキーを押すことがよくあります。 ほとんどの自動化ツールは、完全に逐次的な信号を送信します。 これは偽装するのが非常に難しいパターンです。
結果:
- 初回スコア:56
- 中間スコア:60–70
- 最適化後のスコア:76–77
エージェントは最終的に合格しました。 しかし、本当の教訓はスコアではありませんでした。 多くの人はブラウザのフィンガープリントやIPアドレスに注目します。 この実験は、「振る舞い」が強力なシグナルであることを証明しています。
何をするかだけではありません。 それを「どう行うか」なのです。
AIエージェントが進化するにつれ、振る舞いによる検知は不可欠になるでしょう。 人間であることの最も難しい部分は、タスクをこなすことではありません。 その「不完全さ」なのです。
オプションの学習コミュニティ: https://t.me/GyaanSetuAi