OpenAI 通过 RL 提升 AI 安全性

OpenAI 发现了一种让 AI 更安全的新方法。他们利用少量的强化学习 (RL) 来教导模型具备特定的特质。这些特质包括真实性、公平性和诚实性。

结果显示,该模型在 53 项安全基准测试中的 44 项上都有所提升。

这种方法的不同之处在于:

  • 它使用特定的特质,而非书面的“宪法”。
  • 它使模型更难被恶意提示词 (prompts) 所操纵。
  • 它能抵御有害的微调。
  • 它在阻止不良行为的同时,保持了模型的实用性。

OpenAI 将此称为“选择性持久性” (selective persistence)。模型在执行良好任务时保持灵活性,但能抵御有害的引导。

研究人员使用了医疗、法律和科学等领域的数据。他们发现,针对某一主题进行训练也有助于其他领域。例如,针对健康数据的训练提高了模型在其他学科中避免欺骗的能力。

这与 Anthropic 的做法不同。Anthropic 使用一套被称为“宪法”的书面规则,而 OpenAI 则通过 RL 使用可衡量的行为。

这一发现表明,良好的行为会跨领域传播。这可能会改变未来 AI 公司训练模型的方式。

来源:https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

可选学习社区:https://t.me/GyaanSetuAi