OpenAI améliore la sécurité de l'IA grâce au RL
OpenAI a trouvé une nouvelle façon de rendre l'IA plus sûre. Ils ont utilisé de petites doses d'apprentissage par renforcement (RL) pour enseigner des traits spécifiques aux modèles. Ces traits incluent la véracité, l'équité et l'honnêteté.
Les résultats montrent que le modèle s'est amélioré sur 44 des 53 benchmarks de sécurité.
Ce qui différencie cette méthode :
- Elle utilise des traits spécifiques au lieu d'une constitution écrite.
- Elle rend les modèles plus difficiles à manipuler avec de mauvais prompts.
- Elle résiste au fine-tuning malveillant.
- Elle permet au modèle de rester utile tout en empêchant les comportements malveillants.
OpenAI appelle cela la « persistance sélective ». Le modèle reste flexible pour les tâches bénéfiques, mais résiste au pilotage malveillant.
Les chercheurs ont utilisé des données provenant de domaines tels que la santé, le droit et la science. Ils ont constaté que l'entraînement sur un sujet aide également d'autres domaines. Par exemple, l'entraînement sur des données de santé a amélioré la capacité du modèle à éviter la tromperie dans d'autres sujets.
Cela diffère de l'approche d'Anthropic. Anthropic utilise un ensemble de règles écrites appelé « constitution ». OpenAI utilise des comportements mesurables via le RL.
Cette découverte suggère que les bons comportements se propagent à travers les domaines. Cela pourrait changer la manière dont les entreprises d'IA entraînent leurs modèles à l'avenir.
Optional learning community: https://t.me/GyaanSetuAi