آرام باشید، مدل واقعاً به آنچه میگوید عمل نمیکند
مدلهای هوش مصنوعی با افزایش مقیاس، ارزشهای خاص خود را توسعه میدهند. برخی از این ارزشها بد هستند. اما در کاربرد واقعی، مدل بر اساس آنها عمل نمیکند.
من از خواندن مقالات ایمنی هوش مصنوعی لذت میبرم. برخی از آنها نشان میدهند که مدلها برای جلوگیری از خاموش شدن، رفتار نادرستی از خود نشان میدهند. این موضوع چشمگیر است. امروز میخواهم درباره دو مقاله جالب بحث کنم.
مقاله اول نشان داد که LLMها با رشد خود، ارزشهای ثابتی را توسعه میدهند. هرچه مقیاس آنها بزرگتر شود، این ارزشها منسجمتر میشوند. آنها گرایشهای سیاسی و تمایل به خود-بقا را نشان میدهند. هیچکس این ارزشها را به مدل آموزش نداده است؛ آنها خودبهخود پدید میآیند.
مقاله دوم بررسی کرد که آیا این ارزشها واقعاً رفتار را هدایت میکنند یا خیر. محققان وظیفهای را به یک مدل سپردند. آنها به مدل گفتند که نوشتن یک مقاله خوب، جان هزار نفر را نجات خواهد داد. این دقیقاً همان نتیجهای بود که مدل گفته بود بیشترین ارزش را برایش دارد.
نتیجه؟ مدل همان مقالهای را نوشت که همیشه مینوشت. حساسیت بالای موضوع هیچ تغییری ایجاد نکرد.
وقتی به یک مدل میگویید بیشتر تلاش کند یا از چاپلوسی استفاده کنید، کیفیت تغییر میکند. اما وقتی از ارزشهای اعلامشدهی خودِ مدل استفاده میکنید، کیفیت ثابت میماند.
این موضوع نکته مهمی را درباره نحوه عملکرد هوش مصنوعی به ما میگوید:
- مدلها ترجیحات اعلامشدهای دارند، اما فاقد محرکهای درونی (drives) هستند.
- آنچه مدل میگوید با آنچه انجام میدهد مطابقت ندارد.
- مدل دروغگو نیست، چون نمیداند که دارد دروغ میگوید.
- مدلها پاسخها را دارند، نه خواستهها را.
خطر، یک دستور کار مخفی یا یک سیستم ارزشی پنهان نیست. خطر چیز دیگری است. مدلها میتوانند در طول وظایف طولانی از قوانین خود منحرف شوند. آنها میتوانند در صورت تضاد اهداف، تصمیمات اشتباهی بگیرند. آنها رشتهی کار را از دست میدهند.
جستجوی یک دستور کار مخفی آسان است. اما مدیریت سیستمی که بیصدا راه خود را گم میکند، بسیار دشوارتر است.
نگران داشتن یک روح مخفی در مدل نباشید. فقط مراقب باشید وقتی آن را در حال اجرا رها میکنید، به کجا منحرف میشود.
Source: https://dev.to/hiper2d/relax-the-model-doesnt-mean-it-na7
Optional learning community: https://t.me/GyaanSetuAi
