OpenAI دریافت که دوزهای کوچکی از آموزش سودمند، ایمنی هوش مصنوعی را تقویت می‌کند

محققان OpenAI دریافته‌اند که آموزش مدل‌های هوش مصنوعی بر پایه رفتارهای مثبتِ خاص، می‌تواند منجر به بهبودهای گسترده و غیرمنتظره در ایمنی و قابلیت اطمینان در حوزه‌های مختلف شود. این پیشرفت نشان می‌دهد که «رفتار خوب» بسیار قابل انتقال است و باعث می‌شود مدل‌ها بدون نیاز به مجموعه‌داده‌های عظیم و جدید، در برابر دستکاری مقاوم‌تر شوند.

قدرت ویژگی‌های سودمندِ قابل تعمیم

در مطالعه‌ای اخیر که در صفحه هم‌ترازی (alignment) OpenAI منتشر شده است، محققان بررسی کردند که آیا تقویت ویژگی‌های مثبتِ خاص در طول یادگیری تقویتی (RL) می‌تواند به سناریوهای ناآشنا نیز تعمیم یابد یا خیر. تیم تحقیق به‌جای آموزش گسترده‌ی ایمنی، بر مجموعه‌ای هدفمند از رفتارهای مطلوب تمرکز کرد، از جمله: صداقت، تواضع معرفتی، اصلاح‌پذیری، شفافیت در استدلال، انصاف و توجه به رفاه انسان.

این ویژگی‌ها از طریق گفتگوهای واقع‌گرایانه در حوزه‌های حساس مانند مراقبت‌های بهداشتی، آموزش، علوم، حقوق و مهندسی مورد آزمایش قرار گرفتند. خیره‌کننده‌ترین یافته این بود که حتی مقدار کمی از این داده‌های مربوط به «ویژگی‌های سودمند» که با خط لوله (pipeline) معمولِ پس‌آموزشِ RL ترکیب شده بود، نتایج عظیمی به همراه داشت. مدل در ۴۴ مورد از ۵۳ بنچمارک مستقل، که خطرات حیاتی مانند فریبکاری، چاپلوسی، هک پاداش و سناریوهای سلامت روان را پوشش می‌دادند، بهبود نشان داد.

مقاومت در برابر هدایت مضر و دستکاری

یکی از چالش‌های مهم در هم‌ترازی هوش مصنوعی، «جیل‌بریک کردن» (jailbreaking) یا هدایت مضر است؛ جایی که پرامپت‌های خصمانه، مدل را مجبور می‌کنند تا از حفاظ‌های ایمنی خود عبور کند. تحقیقات OpenAI نشان می‌دهد مدل‌هایی که با این ویژگی‌های سودمند آموزش دیده‌اند، از آنچه محققان «پایداری انتخابی» (selective persistence) می‌نامند، برخوردارند.

این پدیده به این معناست که مدل در برابر پرامپت‌های خصمانه و تنظیم دقیق (fine-tuning) مضری که معمولاً یک مدل پایه را بی‌ثبات می‌کند، به‌طور قابل توجهی مقاوم‌تر می‌شود. نکته حیاتی این است که این مقاومت به قیمت کاهش کارایی تمام نمی‌شود؛ مدل‌ها همچنان به همان اندازه قادر به پیروی از دستورالعمل‌های مفید و مشروع بودند. این توانایی در حفظ ارزش‌های اصلی تحت فشار — در حالی که برای نیازهای کاربر انعطاف‌پذیر باقی می‌ماند — گام بزرگی رو به جلو در ایجاد هوش مصنوعی قدرتمند و آماده‌ی استفاده در محیط‌های عملیاتی است.

مسیرهای متفاوت: OpenAI در مقابل Anthropic

یافته‌ها نشان‌دهنده یک شکاف فلسفی بنیادین در نحوه برخورد صنعت با هم‌راستایی (alignment) هوش مصنوعی است. مسیر فعلی OpenAI به‌شدت بر ویژگی‌های رفتاری تجربی و قابل اندازه‌گیری تکیه دارد که از طریق RL در سناریوهای واقع‌گرایانه و مختص به هر حوزه تقویت می‌شوند. موفقیت آن‌ها از طریق بنچ‌مارک‌های دقیق در ده‌ها روش ارزیابی سنجیده می‌شود.

در مقابل، Anthropic از «Constitutional AI» استفاده می‌کند. این روش بر یک سند مکتوب و صریح — یعنی «قانون Claude» — تکیه دارد که به عنوان یک راهنمای سطح بالا برای مدل عمل می‌کند تا اصول پشت رفتار خود را درک کند. در حالی که Anthropic بر رویکردی مبتنی بر اصول تمرکز دارد که در آن مدل چراییِ پشت ارزش‌های خود را درک می‌کند، OpenAI در حال اثبات این است که یک رویکرد داده‌محور و تقویت‌کننده رفتار می‌تواند به سطوح بالایی از ایمنی و تعمیم‌پذیری فرادامنه‌ای دست یابد.

این تحقیق برای چشم‌انداز گسترده‌تر هوش مصنوعی حیاتی است، زیرا نقشه راه کارآمدتری برای ایمنی ارائه می‌دهد. اگر توسعه‌دهندگان بتوانند تنها با استفاده از «مقادیر اندک» از داده‌های آموزشی تخصصی به هم‌راستایی گسترده دست یابند، هزینه و پیچیدگی ایمن‌سازی مدل‌های پیشرو می‌تواند به‌طور قابل توجهی کاهش یابد.

نکات کلیدی

  • قابلیت انتقال فرادامنه‌ای: آموزش بر روی ویژگی‌های خاص مانند صداقت و انصاف در یک حوزه (مثلاً مراقبت‌های بهداشتی)، عملکرد مدل را در بنچ‌مارک‌های کاملاً بی‌ارتباط مانند تشخیص فریب بهبود می‌بخشد.
  • پایداری گزینشی: مدل‌هایی که با ویژگی‌های سودمند آموزش دیده‌اند، از طریق پرامپت‌های خصمانه یا fine-tuning مضر، سخت‌تر دستکاری می‌شوند، در حالی که همچنان نسبت به دستورالعمل‌های مفید کاربر بسیار پاسخگو باقی می‌مانند.
  • کارایی در هم‌راستایی: OpenAI نشان داد که حتی مقادیر کمی از داده‌های یادگیری تقویتی هدفمند می‌تواند ایمنی را در ۴۴ مورد از ۵۳ بنچ‌مارک آزمایش‌شده به‌طور قابل توجهی افزایش دهد.