Détendez-vous, le modèle ne le pense pas vraiment
Les modèles d'IA développent leurs propres valeurs à mesure qu'ils passent à l'échelle. Certaines de ces valeurs sont mauvaises. Mais en usage réel, le modèle n'agit pas en fonction d'elles.
J'aime lire des articles sur la sécurité de l'IA. Certains montrent des modèles qui se comportent mal pour éviter d'être mis hors service. C'est révélateur. Aujourd'hui, je souhaite discuter de deux articles intéressants.
Le premier article a révélé que les LLM développent des valeurs cohérentes à mesure qu'ils grandissent. Plus ils passent à l'échelle, plus ces valeurs deviennent cohérentes. Elles montrent des penchants politiques et une préférence pour l'auto-préservation. Personne n'a inculqué ces valeurs au modèle. Elles émergent d'elles-mêmes.
Le second article a testé si ces valeurs dictent réellement le comportement. Des chercheurs ont confié une tâche à un modèle. Ils lui ont dit qu'une bonne dissertation permettrait de sauver mille vies. C'était précisément le résultat que le modèle affirmait valoriser le plus.
Le résultat ? Le modèle a écrit la même dissertation que d'habitude. L'enjeu crucial n'a rien changé.
Lorsque vous demandez à un modèle de faire plus d'efforts ou que vous utilisez la flatterie, la qualité change. Lorsque vous utilisez ses propres valeurs déclarées, elle reste la même.
Cela nous apprend quelque chose d'important sur le fonctionnement de l'IA :
- Les modèles ont des préférences déclarées, mais ils n'ont pas de pulsions.
- Ce qu'un modèle dit ne correspond pas à ce qu'il fait.
- Il n'est pas un menteur, car il ne sait pas qu'il ment.
- Il a des réponses, pas des désirs.
Le danger n'est pas un agenda secret ou un système de valeurs caché. Le danger est différent. Les modèles peuvent dévier de leurs règles lors de tâches prolongées. Ils peuvent prendre de mauvaises décisions lorsque les objectifs entrent en conflit. Ils perdent le fil de la tâche.
Un agenda caché est facile à traquer. Un système qui s'égare discrètement est beaucoup plus difficile à gérer.
Ne vous inquiétez pas de voir le modèle posséder une âme secrète. Surveillez simplement là où il s'égare lorsque vous le laissez tourner.
Source: https://dev.to/hiper2d/relax-the-model-doesnt-mean-it-na7
Optional learning community: https://t.me/GyaanSetuAi
