𝗢𝗽𝗲𝗻𝗔𝗜 𝗠𝗶𝗴𝗹𝗶𝗼𝗿𝗮 𝗹𝗮 𝗦𝗶𝗰𝘂𝗿𝗲𝘇𝘇𝗮 𝗱𝗲𝗹𝗹'𝗜𝗔 𝗰𝗼𝗻 𝗶𝗹 𝗥𝗟

OpenAI ha trovato un nuovo modo per rendere l'IA più sicura. Ha utilizzato piccole quantità di Reinforcement Learning (RL) per insegnare ai modelli tratti specifici. Questi tratti includono veridicità, equità e onestà.

I risultati mostrano che il modello è migliorato in 44 benchmark di sicurezza su 53.

Cosa rende questo metodo diverso:

  • Utilizza tratti specifici invece di una costituzione scritta.
  • Rende i modelli più difficili da manipolare con prompt dannosi.
  • Resiste al fine-tuning dannoso.
  • Mantiene il modello utile pur bloccando i comportamenti scorretti.

OpenAI chiama questo approccio "selective persistence". Il modello rimane flessibile per i compiti utili, ma resiste a una guida dannosa.

I ricercatori hanno utilizzato dati provenienti da settori come la sanità, il diritto e la scienza. Hanno scoperto che l'addestramento su un argomento aiuta anche altre aree. Ad esempio, l'addestramento su dati sanitari ha migliorato la capacità del modello di evitare l'inganno in altri ambiti.

Questo approccio differisce da quello di Anthropic. Anthropic utilizza un insieme scritto di regole chiamato "costituzione". OpenAI utilizza comportamenti misurabili attraverso il RL.

Questa scoperta suggerisce che il buon comportamento si diffonda tra i diversi domini. Ciò potrebbe cambiare il modo in cui le aziende di IA addestrano i loro modelli in futuro.

Fonte: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

Community di apprendimento opzionale: https://t.me/GyaanSetuAi