OpenAI покращує безпеку ШІ за допомогою RL
OpenAI знайшла новий спосіб зробити ШІ безпечнішим. Вони використали невеликі порції навчання з підкріпленням (Reinforcement Learning, RL), щоб навчити моделі певним рисам. Ці риси включають правдивість, справедливість та чесність.
Результати показують, що модель покращила показники у 44 з 53 бенчмарків безпеки.
Що робить цей метод особливим:
- Він використовує конкретні риси замість письмової конституції.
- Це ускладнює маніпулювання моделями за допомогою шкідливих промптів.
- Він стійкий до шкідливого fine-tuning.
- Він дозволяє моделі залишатися корисною, водночас припиняючи небажану поведінку.
OpenAI називає це селективною стійкістю (selective persistence). Модель залишається гнучкою для корисних завдань, але чинить опір шкідливому спрямуванню.
Дослідники використовували дані з таких галузей, як охорона здоров'я, право та наука. Вони виявили, що навчання на одній темі допомагає й іншим сферам. Наприклад, навчання на медичних даних покращило здатність моделі уникати введення в оману в інших предметах.
Це відрізняється від підходу Anthropic. Anthropic використовує письмовий набір правил, який називається конституцією. OpenAI використовує вимірювану поведінку через RL.
Це відкриття свідчить про те, що правильна поведінка поширюється між різними доменами. Це може змінити те, як компанії у сфері ШІ навчатимуть свої моделі в майбутньому.
Додаткова спільнота для навчання: https://t.me/GyaanSetuAi