OpenAI виявила, що невеликі дози корисного навчання підвищують безпеку ШІ

Дослідники OpenAI виявили, що навчання моделей ШІ певним позитивним моделям поведінки може призвести до широких і неочікуваних покращень у безпеці та надійності в різних сферах. Цей прорив свідчить про те, що «хороша поведінка» є дуже трансферабельною, що робить моделі стійкішими до маніпуляцій без необхідності використання масивних нових наборів даних.

Сила узагальнюваних корисних рис

У нещодавньому дослідженні, опублікованому на сторінці OpenAI щодо узгодження (alignment), дослідники з'ясували, чи може підкріплення певних позитивних рис під час навчання з підкріпленням (RL) узагальнюватися на незнайомі сценарії. Замість широкого навчання безпеці, команда зосередилася на цілеспрямованому наборі бажаних моделей поведінки, включаючи правдивість, епістемічну скромність, коригуємостість (corrigibility), прозорість міркувань, справедливість та турботу про добробут людини.

Ці риси тестувалися через реалістичні розмови у таких критично важливих сферах, як охорона здоров'я, освіта, наука, право та інженерія. Найбільш вражаючим відкриттям стало те, що навіть невелика кількість даних про ці «корисні риси», змішана зі звичайним конвеєром пост-навчання RL, дала колосальні результати. Модель продемонструвала покращення у 44 з 53 незалежних бенчмарків, охоплюючи такі критичні ризики, як обман, підлесливість (sycophancy), хакінг винагороди (reward hacking) та сценарії, пов'язані з психічним здоров'ям.

Стійкість до шкідливого спрямування та маніпуляцій

Значним викликом в узгодженні ШІ є «джейлбрейк» (jailbreaking) або шкідливе спрямування, коли зловмисні запити змушують модель обходити її запобіжні механізми безпеки. Дослідження OpenAI демонструє, що моделі, навчені з цими корисними рисами, виявляють те, що дослідники називають «селективною стійкістю» (selective persistence).

Це явище означає, що модель стає значно стійкішою до зловмисних запитів та шкідливого тонкого налаштування (fine-tuning), які зазвичай дестабілізують базову модель. Що важливо, ця стійкість не супроводжується втратою корисності; моделі залишалися такими ж здатними виконувати корисні та законні інструкції. Ця здатність зберігати основні цінності під тиском — залишаючись при цьому гнучкою до потреб користувача — є великим кроком вперед у створенні надійного ШІ, готового до експлуатації.

Різні шляхи: OpenAI проти Anthropic

The findings highlight a fundamental philosophical split in how the industry approaches AI alignment. OpenAI’s current trajectory leans heavily on empirical, measurable behavioral traits reinforced through RL in realistic, domain-specific scenarios. Their success is measured through rigorous benchmarking across dozens of evaluation methods.

In contrast, Anthropic utilizes "Constitutional AI." This method relies on an explicit, written document—the "Claude constitution"—which serves as a top-level guide for the model to understand the principles behind its behavior. While Anthropic focuses on a principles-based approach where the model understands the why behind its values, OpenAI is proving that a data-driven, behavior-reinforcement approach can achieve high levels of safety and cross-domain generalization.

This research is vital for the broader AI landscape because it provides a more efficient roadmap for safety. If developers can achieve widespread alignment using only "small doses" of specialized training data, the cost and complexity of making frontier models safe could decrease significantly.

Key Takeaways

  • Cross-Domain Transferability: Training on specific traits like truthfulness and fairness in one field (e.g., healthcare) improves model performance in entirely unrelated benchmarks like deception detection.
  • Selective Persistence: Models trained with beneficial traits become harder to manipulate via adversarial prompts or harmful fine-tuning while remaining highly responsive to helpful user instructions.
  • Efficiency in Alignment: OpenAI demonstrated that even small amounts of targeted reinforcement learning data can significantly boost safety across 44 out of 53 tested benchmarks.