AI Agent 能像人类一样行动吗?

我花了 12 个小时测试 StoryCaptcha。 这是一种实验性的 CAPTCHA(验证码)。 它不会让你去找红绿灯。 它要求你根据提示词写一个故事。 然后,它会通过检查你的行为来判断你是否为人类。

我使用了 Playwright、VS Code、GitHub Copilot 和 Chromium。 我的目标是看看 AI Agent 是否可以模仿人类的行为模式。

我的第一次尝试失败了,得分仅为 56/100。 AI 太过高效了。 它直接复制粘贴文本。 它毫不犹豫地立即行动。 它遵循着完美的模式。 自动化虽然高效,但它并不像人类。

StoryCaptcha 展示了它追踪的指标:

  • 输入 vs 粘贴
  • 按键节奏
  • 认知停顿
  • 鼠标路径曲率
  • 退格键使用情况
  • 纠错行为

我开始调整这个 Agent。

首先,我禁止了 Agent 进行粘贴。 我让它逐字符输入。 得分提高了。

接下来,我调整了打字节奏。 人类打字时并不会保持完美的时序。 我们会停下来思考。 我们会加快或减慢速度。 我在按键之间加入了随机延迟。 得分再次提高。

然后,我加入了错误。 人类会拼错单词。 我们会使用退格键来修正。 我指示 Agent 制造错误并进行纠正。 得分进一步提升。

我还改变了鼠标移动方式。 人类移动鼠标时不会走直线。 他们会悬停和探索。 我在鼠标路径中加入了曲率。

即使得分上升,有一个指标始终保持在 0%。 那就是按键重叠(key-overlap)。 人类经常在松开上一个键之前就按下下一个键。 大多数自动化程序发送的是完美的顺序信号。 这种模式非常难以伪造。

我的结果:

  • 初始得分:56
  • 中期得分:60–70
  • 优化后得分:76–77

Agent 最终通过了测试。 但真正的教训不在于分数。 大多数人关注的是浏览器指纹或 IP 地址。 而这次实验证明,行为是一种强大的信号。

不仅仅在于你做了什么。 更在于你是如何做的。

随着 AI Agent 的发展,行为检测将变得至关重要。 身为人类最难的部分不在于任务本身。 而在于那份不完美。

Source: https://dev.to/shahraan_hussain_b42640e7/can-an-ai-agent-behave-like-a-human-a-12-hour-experiment-with-storycaptcha-1661

Optional learning community: https://t.me/GyaanSetuAi