玛格丽特·阿特伍德警告:为什么 AI 仍困于“垃圾进,垃圾出”
著名作家玛格丽特·阿特伍德(Margaret Atwood)最近对大语言模型提出了尖锐的批评,强调了在准确性和数据完整性方面持续存在的挑战。她的经历揭示了当前 AI 时代的一个基本事实:即使是最先进的模型,也会受到其训练数据质量的限制。
Claude 实验:关于“幻觉”的一课
在葡萄牙波尔图举行的 Babell 文学文化节上,《使女的故事》(Handmaid’s Tale)的作者分享了她使用 Anthropic 的 Claude 的一次经历。阿特伍德试图使用该聊天机器人检索有关英国侦探剧《布朗神父》(Father Brown)的信息,但结果却失败了,这完美地诠释了“幻觉”(hallucination)这一概念。
据阿特伍德称,该模型提供了错误的信息,实际上是在向用户“撒谎”。她指出,LLM 可能浏览并采样了大量的电视评论,但由于在线评论通常会避免剧透,模型被其训练集中的模式误导了。这一技术细节凸显了开发者面临的核心挑战:LLM 是概率引擎,它们优先考虑模式匹配而非事实核查,这往往会导致自信但错误的输出。
数据困境:“垃圾进,垃圾出”
阿特伍德的批评集中在一个永恒的计算原则上:“垃圾进,垃圾出”(garbage in, garbage out)。她指出,LLM 是基于抓取的、先前发布的以及可能过时的信息进行训练的。当向模型输入不完整、有偏见或逻辑不一致的数据时,产生的输出必然会反映出这些缺陷。
对于更广泛的 AI 领域而言,这提醒人们,增加模型参数规模并不能替代数据质量。随着开发者不断推动使用更大的数据集来提升推理能力,数据集中的“噪声”——例如阿特伍德提到的评论中缺乏剧情剧透——可能会产生系统性错误,即使是像 Claude 这样复杂的架构也难以轻易克服。
伦理担忧:投机主义 vs. 创造力
除了技术限制,阿特伍德还谈到了 AI 应用中的人性因素。她将那些过度依赖 AI 的人称为“投机者”,认为他们试图寻找捷径,以规避真正的创作或研究过程中的严谨性。她警告说,利用难以察觉的 AI 生成内容来“作弊”的诱惑,正成为依赖人类智慧和细微差别的行业日益关注的问题。
对于创始人及技术专业人士来说,这种区别至关重要。虽然 AI 可以作为强大的生产力工具,但阿特伍德观察到“即使是出于商业原因使用它的人也必须进行核查”,这强调了人类监督仍然是 AI 工作流中不可或缺的一部分。实现完全自主、无误的 AI 时代仍是一个遥远的前景,而对真相的责任仍然在于用户。
核心要点
- 数据完整性至关重要: “垃圾进,垃圾出”原则仍然是 LLM 面临的最大障碍,因为模型的表现受限于其训练数据的质量和完整性。
- 幻觉陷阱: 如果训练数据中的底层模式具有误导性,即使是像 Anthropic 的 Claude 这样先进的模型,在进行简单的事实检索时也可能失败。
- 人类监督的必要性: AI 应被视为一种需要不断验证的工具,而不是人类专业知识和批判性思维的替代品。
