AI Agent 能像人类一样行动吗?
我花了 12 个小时测试 StoryCaptcha。 这是一种实验性的 CAPTCHA(验证码)。 它不会让你去找红绿灯。 它要求你根据提示词写一个故事。 然后,它会通过检查你的行为来判断你是否为人类。
我使用了 Playwright、VS Code、GitHub Copilot 和 Chromium。 我的目标是看看 AI Agent 是否可以模仿人类的行为模式。
我的第一次尝试失败了,得分仅为 56/100。 AI 太过高效了。 它直接复制粘贴文本。 它毫不犹豫地立即行动。 它遵循着完美的模式。 自动化虽然高效,但它并不像人类。
StoryCaptcha 展示了它追踪的指标:
- 输入 vs 粘贴
- 按键节奏
- 认知停顿
- 鼠标路径曲率
- 退格键使用情况
- 纠错行为
我开始调整这个 Agent。
首先,我禁止了 Agent 进行粘贴。 我让它逐字符输入。 得分提高了。
接下来,我调整了打字节奏。 人类打字时并不会保持完美的时序。 我们会停下来思考。 我们会加快或减慢速度。 我在按键之间加入了随机延迟。 得分再次提高。
然后,我加入了错误。 人类会拼错单词。 我们会使用退格键来修正。 我指示 Agent 制造错误并进行纠正。 得分进一步提升。
我还改变了鼠标移动方式。 人类移动鼠标时不会走直线。 他们会悬停和探索。 我在鼠标路径中加入了曲率。
即使得分上升,有一个指标始终保持在 0%。 那就是按键重叠(key-overlap)。 人类经常在松开上一个键之前就按下下一个键。 大多数自动化程序发送的是完美的顺序信号。 这种模式非常难以伪造。
我的结果:
- 初始得分:56
- 中期得分:60–70
- 优化后得分:76–77
Agent 最终通过了测试。 但真正的教训不在于分数。 大多数人关注的是浏览器指纹或 IP 地址。 而这次实验证明,行为是一种强大的信号。
不仅仅在于你做了什么。 更在于你是如何做的。
随着 AI Agent 的发展,行为检测将变得至关重要。 身为人类最难的部分不在于任务本身。 而在于那份不完美。
Optional learning community: https://t.me/GyaanSetuAi