OpenAI покращує безпеку ШІ за допомогою RL

Translated for your language. Read the original.

AI-assisted draft.

9 годин тому1min read

OpenAI покращує безпеку ШІ за допомогою RL

OpenAI знайшла новий спосіб зробити ШІ безпечнішим. Вони використали невеликі порції навчання з підкріпленням (Reinforcement Learning, RL), щоб навчити моделі певним рисам. Ці риси включають правдивість, справедливість та чесність.

Результати показують, що модель покращила показники у 44 з 53 бенчмарків безпеки.

Що робить цей метод особливим:

Він використовує конкретні риси замість письмової конституції.
Це ускладнює маніпулювання моделями за допомогою шкідливих промптів.
Він стійкий до шкідливого fine-tuning.
Він дозволяє моделі залишатися корисною, водночас припиняючи небажану поведінку.

OpenAI називає це селективною стійкістю (selective persistence). Модель залишається гнучкою для корисних завдань, але чинить опір шкідливому спрямуванню.

Дослідники використовували дані з таких галузей, як охорона здоров'я, право та наука. Вони виявили, що навчання на одній темі допомагає й іншим сферам. Наприклад, навчання на медичних даних покращило здатність моделі уникати введення в оману в інших предметах.

Це відрізняється від підходу Anthropic. Anthropic використовує письмовий набір правил, який називається конституцією. OpenAI використовує вимірювану поведінку через RL.

Це відкриття свідчить про те, що правильна поведінка поширюється між різними доменами. Це може змінити те, як компанії у сфері ШІ навчатимуть свої моделі в майбутньому.

Джерело: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

Додаткова спільнота для навчання: https://t.me/GyaanSetuAi

OpenAI покращує безпеку ШІ за допомогою RL

Continue reading

𝗣𝗿𝗲 𝗟𝗮𝘂𝗻𝗰𝗵 𝗔𝗜 𝗦𝗶𝗺𝘂𝗹𝗮𝘁𝗶𝗼𝗻𝘀 𝗔𝗿𝗲 𝗧𝗵𝗲 𝗡𝗲𝘄 𝗠𝗼𝗱𝗲𝗹 𝗦𝗮𝗳𝗲𝘁𝘆 𝗖𝗵𝗲𝗰𝗸

Симуляції ШІ перед запуском — це нова перевірка безпеки

Як OpenAI та Anthropic проєктують системи ШІ

Як OpenAI та Anthropic проєктують системи ШІ

OpenAI виявила, що невеликі порції корисного навчання підвищують безпеку ШІ