𝗢𝗽𝗲𝗻𝗔𝗜 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝘀 𝗔𝗜 𝗦𝗮𝗳𝗲𝘁𝘆 𝗪𝗶𝘁𝗵 𝗥𝗟

Translated for your language. Leggi l'originale.

AI-assisted draft.

9 ore fa1min di lettura

𝗢𝗽𝗲𝗻𝗔𝗜 𝗠𝗶𝗴𝗹𝗶𝗼𝗿𝗮 𝗹𝗮 𝗦𝗶𝗰𝘂𝗿𝗲𝘇𝘇𝗮 𝗱𝗲𝗹𝗹'𝗜𝗔 𝗰𝗼𝗻 𝗶𝗹 𝗥𝗟

OpenAI ha trovato un nuovo modo per rendere l'IA più sicura. Ha utilizzato piccole quantità di Reinforcement Learning (RL) per insegnare ai modelli tratti specifici. Questi tratti includono veridicità, equità e onestà.

I risultati mostrano che il modello è migliorato in 44 benchmark di sicurezza su 53.

Cosa rende questo metodo diverso:

Utilizza tratti specifici invece di una costituzione scritta.
Rende i modelli più difficili da manipolare con prompt dannosi.
Resiste al fine-tuning dannoso.
Mantiene il modello utile pur bloccando i comportamenti scorretti.

OpenAI chiama questo approccio "selective persistence". Il modello rimane flessibile per i compiti utili, ma resiste a una guida dannosa.

I ricercatori hanno utilizzato dati provenienti da settori come la sanità, il diritto e la scienza. Hanno scoperto che l'addestramento su un argomento aiuta anche altre aree. Ad esempio, l'addestramento su dati sanitari ha migliorato la capacità del modello di evitare l'inganno in altri ambiti.

Questo approccio differisce da quello di Anthropic. Anthropic utilizza un insieme scritto di regole chiamato "costituzione". OpenAI utilizza comportamenti misurabili attraverso il RL.

Questa scoperta suggerisce che il buon comportamento si diffonda tra i diversi domini. Ciò potrebbe cambiare il modo in cui le aziende di IA addestrano i loro modelli in futuro.

Fonte: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

Community di apprendimento opzionale: https://t.me/GyaanSetuAi

𝗢𝗽𝗲𝗻𝗔𝗜 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝘀 𝗔𝗜 𝗦𝗮𝗳𝗲𝘁𝘆 𝗪𝗶𝘁𝗵 𝗥𝗟

Continua a leggere

Le simulazioni AI pre-lancio sono il nuovo controllo di sicurezza dei modelli

Le simulazioni AI pre-lancio sono il nuovo controllo di sicurezza

𝗛𝗼𝘄 𝗢𝗽𝗲𝗻𝗔𝗜 𝗮𝗻𝗱 𝗔𝗻𝘁𝗵𝗿𝗼𝗽𝗶𝗰 𝗗𝗲𝘀𝗶𝗴𝗻 𝗔𝗜 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

Come OpenAI e Anthropic progettano i sistemi di IA

OpenAI scopre che piccole dosi di addestramento benefico migliorano la sicurezza dell'IA