OpenAI обнаружила, что малые дозы полезного обучения повышают безопасность ИИ

Исследователи OpenAI обнаружили, что обучение моделей ИИ специфическим положительным паттернам поведения может привести к широким и неожиданным улучшениям в области безопасности и надежности в различных сферах. Этот прорыв позволяет предположить, что «хорошее поведение» обладает высокой степенью переносимости, что делает модели более устойчивыми к манипуляциям без необходимости использования массивных новых наборов данных.

Сила обобщаемых полезных черт

В недавнем исследовании, опубликованном на странице OpenAI по вопросам согласования (alignment), исследователи изучили, может ли закрепление определенных положительных черт в процессе обучения с подкреплением (RL) распространяться на незнакомые сценарии. Вместо общего обучения безопасности команда сосредоточилась на целевом наборе желаемого поведения, включая правдивость, эпистемическую скромность, корректируемость, прозрачность рассуждений, справедливость и заботу о благополучии человека.

Эти черты тестировались в ходе реалистичных диалогов в таких критически важных областях, как здравоохранение, образование, наука, право и инженерия. Самым поразительным выводом стало то, что даже небольшое количество данных о «полезных чертах», добавленное в обычный конвейер постобучения RL, дало колоссальные результаты. Модель показала улучшение в 44 из 53 независимых бенчмарков, охватывающих такие критические риски, как обман, подхалимство, взлом вознаграждения (reward hacking) и сценарии, связанные с психическим здоровьем.

Устойчивость к вредоносному управлению и манипуляциям

Одной из серьезных проблем в согласовании ИИ является «джейлбрейк» (jailbreaking) или вредоносное управление, когда состязательные промпты заставляют модель обходить защитные барьеры безопасности. Исследование OpenAI показывает, что модели, обученные с учетом этих полезных черт, демонстрируют то, что исследователи называют «избирательной устойчивостью» (selective persistence).

Это явление означает, что модель становится значительно более устойчивой к состязательным промптам и вредоносному тонкому настроению (fine-tuning), которое обычно дестабилизирует базовую модель. Что крайне важно, эта устойчивость не идет в ущерб полезности: модели по-прежнему способны следовать полезным и законным инструкциям. Способность сохранять основные ценности под давлением, оставаясь при этом гибкой для нужд пользователя, представляет собой важный шаг вперед в создании надежного ИИ, готового к промышленной эксплуатации.

Расходящиеся пути: OpenAI против Anthropic

Результаты исследования подчеркивают фундаментальный философский раскол в том, как индустрия подходит к выравниванию ИИ (AI alignment). Текущая траектория OpenAI в значительной степени опирается на эмпирические, измеримые поведенческие признаки, закрепляемые с помощью RL в реалистичных, специфичных для конкретных областей сценариях. Их успех измеряется путем строгого бенчмаркинга с использованием десятков методов оценки.

Напротив, Anthropic использует «Constitutional AI». Этот метод опирается на явный письменный документ — «конституцию Claude», которая служит высокоуровневым руководством, помогающим модели понять принципы, лежащие в основе её поведения. В то время как Anthropic фокусируется на подходе, основанном на принципах, где модель понимает почему она придерживается тех или иных ценностей, OpenAI доказывает, что подход, основанный на данных и закреплении поведения, может обеспечить высокий уровень безопасности и обобщения между различными областями.

Это исследование имеет жизненно важное значение для всего ландшафта ИИ, поскольку оно предлагает более эффективную дорожную карту обеспечения безопасности. Если разработчики смогут достичь широкомасштабного выравнивания, используя лишь «малые дозы» специализированных обучающих данных, стоимость и сложность обеспечения безопасности передовых моделей могут значительно снизиться.

Основные выводы

  • Междоменная переносимость: Обучение специфическим чертам, таким как правдивость и справедливость, в одной области (например, в здравоохранении), улучшает работу модели в совершенно не связанных с ней бенчмарках, таких как обнаружение обмана.
  • Избирательная устойчивость: Модели, обученные полезным чертам, становится сложнее манипулировать с помощью состязательных промптов или вредоносной тонкой настройки, при этом они остаются высокочувствительными к полезным инструкциям пользователя.
  • Эффективность выравнивания: OpenAI продемонстрировала, что даже небольшие объемы целевых данных для обучения с подкреплением могут значительно повысить уровень безопасности в 44 из 53 протестированных бенчмарков.