OpenAI améliore la sécurité de l'IA grâce au RL

Translated for your language. Lire l'original.

AI-assisted draft.

il y a 9 heures1min de lecture

OpenAI améliore la sécurité de l'IA grâce au RL

OpenAI a trouvé une nouvelle façon de rendre l'IA plus sûre. Ils ont utilisé de petites doses d'apprentissage par renforcement (RL) pour enseigner des traits spécifiques aux modèles. Ces traits incluent la véracité, l'équité et l'honnêteté.

Les résultats montrent que le modèle s'est amélioré sur 44 des 53 benchmarks de sécurité.

Ce qui différencie cette méthode :

Elle utilise des traits spécifiques au lieu d'une constitution écrite.
Elle rend les modèles plus difficiles à manipuler avec de mauvais prompts.
Elle résiste au fine-tuning malveillant.
Elle permet au modèle de rester utile tout en empêchant les comportements malveillants.

OpenAI appelle cela la « persistance sélective ». Le modèle reste flexible pour les tâches bénéfiques, mais résiste au pilotage malveillant.

Les chercheurs ont utilisé des données provenant de domaines tels que la santé, le droit et la science. Ils ont constaté que l'entraînement sur un sujet aide également d'autres domaines. Par exemple, l'entraînement sur des données de santé a amélioré la capacité du modèle à éviter la tromperie dans d'autres sujets.

Cela diffère de l'approche d'Anthropic. Anthropic utilise un ensemble de règles écrites appelé « constitution ». OpenAI utilise des comportements mesurables via le RL.

Cette découverte suggère que les bons comportements se propagent à travers les domaines. Cela pourrait changer la manière dont les entreprises d'IA entraînent leurs modèles à l'avenir.

Source: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

Optional learning community: https://t.me/GyaanSetuAi

OpenAI améliore la sécurité de l'IA grâce au RL

Continuer la lecture

Les simulations d'IA pré-lancement sont le nouveau contrôle de sécurité des modèles

Les simulations d'IA pré-lancement sont le nouveau contrôle de sécurité

Comment OpenAI et Anthropic conçoivent des systèmes d'IA

𝗛𝗼𝘄 𝗢𝗽𝗲𝗻𝗔𝗜 𝗮𝗻𝗱 𝗔𝗻𝘁𝗵𝗿𝗼𝗽𝗶𝗰 𝗗𝗲𝘀𝗶𝗴𝗻 𝗔𝗜 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

OpenAI Finds Small Doses of Beneficial Training Boost AI Safety