OpenAI 通过强化学习 (RL) 提升 AI 安全性

Translated for your language. 阅读原文.

AI-assisted draft.

9小时前1分钟阅读

OpenAI 通过 RL 提升 AI 安全性

OpenAI 发现了一种让 AI 更安全的新方法。他们利用少量的强化学习 (RL) 来教导模型具备特定的特质。这些特质包括真实性、公平性和诚实性。

结果显示，该模型在 53 项安全基准测试中的 44 项上都有所提升。

这种方法的不同之处在于：

OpenAI 将此称为“选择性持久性” (selective persistence)。模型在执行良好任务时保持灵活性，但能抵御有害的引导。

研究人员使用了医疗、法律和科学等领域的数据。他们发现，针对某一主题进行训练也有助于其他领域。例如，针对健康数据的训练提高了模型在其他学科中避免欺骗的能力。

这与 Anthropic 的做法不同。Anthropic 使用一套被称为“宪法”的书面规则，而 OpenAI 则通过 RL 使用可衡量的行为。

这一发现表明，良好的行为会跨领域传播。这可能会改变未来 AI 公司训练模型的方式。

继续阅读