AI 检测可靠性危机:部分工具表现出色,部分则彻底失效

作者协会(Authors Guild)最近的一项研究揭示了 AI 写作检测器在可靠性方面的巨大差异,表明虽然有些工具非常准确,但其他工具则存在根本性的缺陷。这种波动性对专业作家构成了重大威胁,因为他们的生计依赖于证明自己的作品是由人类创作的。

性能差距:从完美到彻底失败

作者协会使用十篇发表于 2020 年至 2022 年间的文章进行了严格测试——这些文章发表于生成式 AI 成为主流现象之前的几年。通过使用“前 AI 时代”的人类文本,该研究提供了一个清晰的基准来衡量误报率(false positive rates)。

测试结果呈现两极分化。PangramGrammarly 脱颖而出,成为最可靠的工具,准确地将每一篇人类撰写的文本都识别为人类创作(AI 评分均为 0.0%)。Originality.ai 的表现也十分强劲,在各项指标上都保持了极高的准确性。

与此形成鲜明对比的是,Sidekicker.ai 的表现极其糟糕。测试中的每一篇人类文章都被标记为“大部分由 AI 生成”,其中两篇文章甚至获得了 100% 的 AI 评分。ZeroGPT 也被证明是不可靠的,它经常对无可争议的人类文本报告极高的 AI 百分比,例如关于“Erdrich Pulitzer Prize”的文章,它将其标记为 76.3% 的 AI 概率。

专业写作的悖论

该研究强调了一个令人不安的技术悖论:人类作家的技巧越高,就越有可能被有缺陷的检测器标记。专业写作依赖于清晰度、简洁性和精确性——而这恰恰是大型语言模型(LLMs)被训练去模仿的统计模式。

由于 AI 模型是基于高质量的人类散文进行训练的,大师级句子的“指纹”看起来可能与 AI 生成的句子几乎一模一样。这创造了一个高风险的环境:一位花费数十年磨练技艺的作家,可能会因为像 Sidekicker 这样的工具产生的误报而失去合同或损害声誉。

“黑箱”问题与检测的未来

即便是成功的工具也面临着透明度方面的批评。Pangram 的 CEO Max Spero 指出,他的检测器本质上是一个“黑箱”,这意味着它无法为特定文本被标记的原因提供详细解释。虽然他认为人类写作的变体和论证结构比 LLM 的统一性更丰富,但缺乏可解释性仍然是问责制面临的一个障碍。

此外,Pangram 和 Grammarly 在此次测试中的成功主要证明了它们擅长避免误报(即不标记人类)。这并不一定保证它们在捕捉 AI(识别机器文本)方面同样有效。

随着行业在“使用 AI 写作”与“使用 AI 思考”之间艰难地寻找界限,作者协会警告称,检测工具绝不应成为做出专业决策的唯一依据。

核心要点

  • 准确性的极端差异: 虽然 Pangram 和 Grammarly 在测试中实现了 0% 的误报率,但 Sidekicker.ai 将 100% 的人类文本标记为 AI 生成。
  • 专业惩罚: 高质量、精确的人类写作在统计学上与 AI 输出具有相似性,这使得专家级作家容易受到检测错误的伤害。
  • 呼吁人工监督: 作者协会建议出版商仅将检测器作为辅助工具,并允许作家有机会为其作品进行辩护。