OpenAI ایمنی هوش مصنوعی را با RL بهبود می‌بخشد

OpenAI روش جدیدی برای ایمن‌تر کردن هوش مصنوعی پیدا کرده است. آن‌ها از مقادیر کمی یادگیری تقویتی (RL) برای آموزش ویژگی‌های خاص به مدل‌ها استفاده کردند. این ویژگی‌ها شامل حقیقت‌گویی، انصاف و صداقت است.

نتایج نشان می‌دهد که مدل در ۴۴ مورد از ۵۳ معیار ارزیابی ایمنی بهبود یافته است.

آنچه این روش را متمایز می‌کند:

  • به جای یک قانون اساسی مکتوب، از ویژگی‌های خاص استفاده می‌کند.
  • دستکاری مدل‌ها با پرامپت‌های مخرب را دشوارتر می‌کند.
  • در برابر تنظیم دقیق (fine-tuning) مخرب مقاومت می‌کند.
  • مدل را در عین جلوگیری از رفتارهای نامناسب، مفید نگه می‌دارد.

OpenAI این روش را «پایداری انتخابی» (selective persistence) می‌نامد. مدل برای انجام وظایف مفید انعطاف‌پذیر باقی می‌ماند، اما در برابر هدایت‌های مخرب مقاومت می‌کند.

پژوهشگران از داده‌های حوزه‌هایی مانند مراقبت‌های بهداشتی، حقوق و علوم استفاده کردند. آن‌ها دریافتند که آموزش روی یک موضوع، به سایر حوزه‌ها نیز کمک می‌کند. برای مثال، آموزش بر روی داده‌های سلامت باعث بهبود توانایی مدل در اجتناب از فریبکاری در موضوعات دیگر شد.

این روش با Anthropic متفاوت است. Anthropic از مجموعه‌ای از قوانین مکتوب به نام قانون اساسی (constitution) استفاده می‌کند، اما OpenAI از رفتارهای قابل اندازه‌گیری از طریق RL بهره می‌برد.

این کشف نشان می‌دهد که رفتار خوب در حوزه‌های مختلف گسترش می‌یابد. این موضوع می‌تواند نحوه آموزش مدل‌ها توسط شرکت‌های هوش مصنوعی را در آینده تغییر دهد.

منبع: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi