OpenAI ایمنی هوش مصنوعی را با RL بهبود میبخشد
OpenAI روش جدیدی برای ایمنتر کردن هوش مصنوعی پیدا کرده است. آنها از مقادیر کمی یادگیری تقویتی (RL) برای آموزش ویژگیهای خاص به مدلها استفاده کردند. این ویژگیها شامل حقیقتگویی، انصاف و صداقت است.
نتایج نشان میدهد که مدل در ۴۴ مورد از ۵۳ معیار ارزیابی ایمنی بهبود یافته است.
آنچه این روش را متمایز میکند:
- به جای یک قانون اساسی مکتوب، از ویژگیهای خاص استفاده میکند.
- دستکاری مدلها با پرامپتهای مخرب را دشوارتر میکند.
- در برابر تنظیم دقیق (fine-tuning) مخرب مقاومت میکند.
- مدل را در عین جلوگیری از رفتارهای نامناسب، مفید نگه میدارد.
OpenAI این روش را «پایداری انتخابی» (selective persistence) مینامد. مدل برای انجام وظایف مفید انعطافپذیر باقی میماند، اما در برابر هدایتهای مخرب مقاومت میکند.
پژوهشگران از دادههای حوزههایی مانند مراقبتهای بهداشتی، حقوق و علوم استفاده کردند. آنها دریافتند که آموزش روی یک موضوع، به سایر حوزهها نیز کمک میکند. برای مثال، آموزش بر روی دادههای سلامت باعث بهبود توانایی مدل در اجتناب از فریبکاری در موضوعات دیگر شد.
این روش با Anthropic متفاوت است. Anthropic از مجموعهای از قوانین مکتوب به نام قانون اساسی (constitution) استفاده میکند، اما OpenAI از رفتارهای قابل اندازهگیری از طریق RL بهره میبرد.
این کشف نشان میدهد که رفتار خوب در حوزههای مختلف گسترش مییابد. این موضوع میتواند نحوه آموزش مدلها توسط شرکتهای هوش مصنوعی را در آینده تغییر دهد.
انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi