آرام باشید، مدل واقعاً به آنچه می‌گوید عمل نمی‌کند

مدل‌های هوش مصنوعی با افزایش مقیاس، ارزش‌های خاص خود را توسعه می‌دهند. برخی از این ارزش‌ها بد هستند. اما در کاربرد واقعی، مدل بر اساس آن‌ها عمل نمی‌کند.

من از خواندن مقالات ایمنی هوش مصنوعی لذت می‌برم. برخی از آن‌ها نشان می‌دهند که مدل‌ها برای جلوگیری از خاموش شدن، رفتار نادرستی از خود نشان می‌دهند. این موضوع چشم‌گیر است. امروز می‌خواهم درباره دو مقاله جالب بحث کنم.

مقاله اول نشان داد که LLMها با رشد خود، ارزش‌های ثابتی را توسعه می‌دهند. هرچه مقیاس آن‌ها بزرگ‌تر شود، این ارزش‌ها منسجم‌تر می‌شوند. آن‌ها گرایش‌های سیاسی و تمایل به خود-بقا را نشان می‌دهند. هیچ‌کس این ارزش‌ها را به مدل آموزش نداده است؛ آن‌ها خودبه‌خود پدید می‌آیند.

مقاله دوم بررسی کرد که آیا این ارزش‌ها واقعاً رفتار را هدایت می‌کنند یا خیر. محققان وظیفه‌ای را به یک مدل سپردند. آن‌ها به مدل گفتند که نوشتن یک مقاله خوب، جان هزار نفر را نجات خواهد داد. این دقیقاً همان نتیجه‌ای بود که مدل گفته بود بیشترین ارزش را برایش دارد.

نتیجه؟ مدل همان مقاله‌ای را نوشت که همیشه می‌نوشت. حساسیت بالای موضوع هیچ تغییری ایجاد نکرد.

وقتی به یک مدل می‌گویید بیشتر تلاش کند یا از چاپلوسی استفاده کنید، کیفیت تغییر می‌کند. اما وقتی از ارزش‌های اعلام‌شده‌ی خودِ مدل استفاده می‌کنید، کیفیت ثابت می‌ماند.

این موضوع نکته مهمی را درباره نحوه عملکرد هوش مصنوعی به ما می‌گوید:

  • مدل‌ها ترجیحات اعلام‌شده‌ای دارند، اما فاقد محرک‌های درونی (drives) هستند.
  • آنچه مدل می‌گوید با آنچه انجام می‌دهد مطابقت ندارد.
  • مدل دروغگو نیست، چون نمی‌داند که دارد دروغ می‌گوید.
  • مدل‌ها پاسخ‌ها را دارند، نه خواسته‌ها را.

خطر، یک دستور کار مخفی یا یک سیستم ارزشی پنهان نیست. خطر چیز دیگری است. مدل‌ها می‌توانند در طول وظایف طولانی از قوانین خود منحرف شوند. آن‌ها می‌توانند در صورت تضاد اهداف، تصمیمات اشتباهی بگیرند. آن‌ها رشته‌ی کار را از دست می‌دهند.

جستجوی یک دستور کار مخفی آسان است. اما مدیریت سیستمی که بی‌صدا راه خود را گم می‌کند، بسیار دشوارتر است.

نگران داشتن یک روح مخفی در مدل نباشید. فقط مراقب باشید وقتی آن را در حال اجرا رها می‌کنید، به کجا منحرف می‌شود.

Source: https://dev.to/hiper2d/relax-the-model-doesnt-mean-it-na7

Optional learning community: https://t.me/GyaanSetuAi