OpenAI 发现少量有益训练可提升 AI 安全性

Translated for your language. 阅读原文.

AI-assisted draft.

昨天3分钟阅读

本文目录

OpenAI 发现少量有益训练可提升 AI 安全性

OpenAI 的研究人员发现，针对特定的积极行为对 AI 模型进行训练，可以带来在各个领域中广泛且意想不到的安全性和可靠性提升。这一突破表明，“良好行为”具有高度的可迁移性，使模型在无需大规模新数据集的情况下，能够更有效地抵御操纵。

可泛化有益特质的力量

在 OpenAI 对齐（alignment）页面最近发布的一项研究中，研究人员探讨了在强化学习（RL）过程中强化特定的积极特质，是否可以泛化到陌生的场景中。该团队并没有进行广泛的安全训练，而是专注于一组有针对性的理想行为，包括诚实、认知谦逊（epistemic humility）、可纠正性（corrigibility）、推理透明度、公平性以及对人类福祉的关注。

这些特质通过医疗、教育、科学、法律和工程等高风险领域的现实对话进行了测试。最令人瞩目的发现是，即使将少量的这种“有益特质”数据混入常规的 RL 后训练流程中，也能产生巨大的效果。模型在 53 个独立基准测试中的 44 个上表现出了提升，涵盖了欺骗、谄媚（sycophancy）、奖励篡改（reward hacking）以及心理健康场景等关键风险。

对有害引导与操纵的抵抗力

AI 对齐面临的一个重大挑战是“越狱”（jailbreaking）或有害引导，即通过对抗性提示词迫使模型绕过其安全护栏。OpenAI 的研究表明，经过这些有益特质训练的模型表现出了研究人员所称的“选择性持久性”（selective persistence）。

这一现象意味着，模型对对抗性提示词和有害微调的抵抗力显著增强，而这些因素通常会导致基准模型失去稳定性。至关重要的是，这种抵抗力并非以牺牲效用为代价；模型在遵循有益且合法的指令方面依然保持着同样的能力。这种在压力下维持核心价值观、同时又能灵活满足用户需求的能力，标志着在创建稳健且可投入生产的 AI 方面迈出了重要一步。

分歧之路：OpenAI 对阵 Anthropic

这些研究结果凸显了行业在处理 AI 对齐问题时存在根本性的哲学分歧。OpenAI 目前的发展轨迹严重依赖于通过在现实、特定领域的场景中进行强化学习 (RL) 来增强经验性的、可衡量的行为特征。他们的成功是通过数十种评估方法的严格基准测试来衡量的。

相比之下，Anthropic 使用的是“Constitutional AI”。这种方法依赖于一份明确的书面文档——“Claude constitution”——作为顶层指南，帮助模型理解其行为背后的原则。Anthropic 专注于一种基于原则的方法，让模型理解其价值观背后的“为什么”；而 OpenAI 则正在证明，一种数据驱动的行为强化方法可以实现高水平的安全性和跨领域泛化。

这项研究对于更广泛的 AI 领域至关重要，因为它为安全性提供了一条更高效的路线图。如果开发者仅使用“少量”专门的训练数据就能实现广泛的对齐，那么确保前沿模型安全性的成本和复杂性可能会显著降低。

核心要点

跨领域迁移能力： 在某一领域（如医疗保健）针对真实性和公平性等特定特征进行训练，可以提高模型在完全无关的基准测试（如欺骗检测）中的表现。
选择性持久性： 经过有益特征训练的模型，在保持对用户有用指令高度响应的同时，变得更难以通过对抗性提示或有害微调来操纵。
对齐效率： OpenAI 证明，即使是少量的针对性强化学习数据，也能在 53 个测试基准中的 44 个上显著提升安全性。

OpenAI 发现少量有益训练可提升 AI 安全性

OpenAI 发现少量有益训练可提升 AI 安全性

可泛化有益特质的力量

对有害引导与操纵的抵抗力

分歧之路：OpenAI 对阵 Anthropic

核心要点

继续阅读

OpenAI 提出部署模拟方案以预测 AI 失效

OpenAI 和 Anthropic 如何设计 AI 系统

OpenAI 和 Anthropic 如何设计 AI 系统

OpenAI 以 92% 的准确率预测 GPT-5 的错误

OpenAI 通过强化学习 (RL) 提升 AI 安全性