𝗢𝗽𝗲𝗻𝗔𝗜 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝘀 𝗔𝗜 𝗦𝗮𝗳𝗲𝘁𝘆 𝗪𝗶𝘁𝗵 𝗥𝗟

Translated for your language. Read the original.

AI-assisted draft.

۹ ساعت پیش1min read

OpenAI ایمنی هوش مصنوعی را با RL بهبود می‌بخشد

OpenAI روش جدیدی برای ایمن‌تر کردن هوش مصنوعی پیدا کرده است. آن‌ها از مقادیر کمی یادگیری تقویتی (RL) برای آموزش ویژگی‌های خاص به مدل‌ها استفاده کردند. این ویژگی‌ها شامل حقیقت‌گویی، انصاف و صداقت است.

نتایج نشان می‌دهد که مدل در ۴۴ مورد از ۵۳ معیار ارزیابی ایمنی بهبود یافته است.

آنچه این روش را متمایز می‌کند:

به جای یک قانون اساسی مکتوب، از ویژگی‌های خاص استفاده می‌کند.
دستکاری مدل‌ها با پرامپت‌های مخرب را دشوارتر می‌کند.
در برابر تنظیم دقیق (fine-tuning) مخرب مقاومت می‌کند.
مدل را در عین جلوگیری از رفتارهای نامناسب، مفید نگه می‌دارد.

OpenAI این روش را «پایداری انتخابی» (selective persistence) می‌نامد. مدل برای انجام وظایف مفید انعطاف‌پذیر باقی می‌ماند، اما در برابر هدایت‌های مخرب مقاومت می‌کند.

پژوهشگران از داده‌های حوزه‌هایی مانند مراقبت‌های بهداشتی، حقوق و علوم استفاده کردند. آن‌ها دریافتند که آموزش روی یک موضوع، به سایر حوزه‌ها نیز کمک می‌کند. برای مثال، آموزش بر روی داده‌های سلامت باعث بهبود توانایی مدل در اجتناب از فریبکاری در موضوعات دیگر شد.

این روش با Anthropic متفاوت است. Anthropic از مجموعه‌ای از قوانین مکتوب به نام قانون اساسی (constitution) استفاده می‌کند، اما OpenAI از رفتارهای قابل اندازه‌گیری از طریق RL بهره می‌برد.

این کشف نشان می‌دهد که رفتار خوب در حوزه‌های مختلف گسترش می‌یابد. این موضوع می‌تواند نحوه آموزش مدل‌ها توسط شرکت‌های هوش مصنوعی را در آینده تغییر دهد.

منبع: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi

𝗢𝗽𝗲𝗻𝗔𝗜 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝘀 𝗔𝗜 𝗦𝗮𝗳𝗲𝘁𝘆 𝗪𝗶𝘁𝗵 𝗥𝗟

Continue reading

𝗣𝗿𝗲 𝗟𝗮𝘂𝗻𝗰𝗵 𝗔𝗜 𝗦𝗶𝗺𝘂𝗹𝗮𝘁𝗶𝗼𝗻𝘀 𝗔𝗿𝗲 𝗧𝗵𝗲 𝗡𝗲𝘄 𝗠𝗼𝗱𝗲𝗹 𝗦𝗮𝗳𝗲𝘁𝘆 𝗖𝗵𝗲𝗰𝗸

شبیه‌سازی‌های هوش مصنوعی پیش از عرضه، معیار جدید بررسی ایمنی هستند

چگونگی طراحی سیستم‌های هوش مصنوعی توسط OpenAI و Anthropic

چگونگی طراحی سیستم‌های هوش مصنوعی توسط OpenAI و Anthropic

OpenAI Finds Small Doses of Beneficial Training Boost AI Safety