OpenAI, RL을 통한 AI 안전성 향상

OpenAI가 AI를 더 안전하게 만드는 새로운 방법을 찾아냈습니다. 이들은 소량의 강화 학습(Reinforcement Learning, RL)을 사용하여 모델에 특정 특성을 학습시켰습니다. 이러한 특성에는 진실성, 공정성, 정직함 등이 포함됩니다.

결과에 따르면 모델은 53개의 안전성 벤치마크 중 44개에서 성능이 향상되었습니다.

이 방법이 차별화되는 점:

  • 명문화된 헌법 대신 특정 특성을 사용합니다.
  • 악의적인 프롬프트로 모델을 조작하기 어렵게 만듭니다.
  • 유해한 미세 조정(fine-tuning)에 저항합니다.
  • 나쁜 행동은 차단하면서도 모델의 유용성은 유지합니다.

OpenAI는 이를 '선택적 지속성(selective persistence)'이라고 부릅니다. 모델은 유익한 작업에는 유연함을 유지하면서도, 유해한 유도(steering)에는 저항합니다.

연구진은 의료, 법률, 과학과 같은 분야의 데이터를 사용했습니다. 이들은 한 가지 주제에 대한 학습이 다른 분야에도 도움이 된다는 것을 발견했습니다. 예를 들어, 의료 데이터로 학습하면 다른 주제에서도 모델이 기만적인 행동을 피하는 능력이 향상되었습니다.

이는 Anthropic과는 다릅니다. Anthropic은 '헌법(constitution)'이라 불리는 명문화된 규칙 세트를 사용합니다. 반면 OpenAI는 RL을 통해 측정 가능한 행동을 사용합니다.

이번 발견은 바람직한 행동이 여러 도메인에 걸쳐 확산된다는 것을 시사합니다. 이는 향후 AI 기업들이 모델을 학습시키는 방식을 바꿀 수 있습니다.

Source: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

Optional learning community: https://t.me/GyaanSetuAi