OpenAI ने RL के साथ AI सुरक्षा में सुधार किया

OpenAI ने AI को अधिक सुरक्षित बनाने का एक नया तरीका खोजा है। उन्होंने मॉडल्स को विशिष्ट गुण सिखाने के लिए Reinforcement Learning (RL) की अल्प मात्रा का उपयोग किया। इन गुणों में सत्यनिष्ठा, निष्पक्षता और ईमानदारी शामिल हैं।

परिणाम दिखाते हैं कि मॉडल ने 53 में से 44 सुरक्षा बेंचमार्क (safety benchmarks) में सुधार किया है।

यह विधि अलग क्यों है:

  • यह लिखित संविधान के बजाय विशिष्ट गुणों का उपयोग करती है।
  • यह मॉडल्स को खराब प्रॉम्प्ट्स (bad prompts) के माध्यम से हेरफेर करना कठिन बना देती है।
  • यह हानिकारक फाइन-ट्यूनिंग (fine-tuning) का विरोध करती है।
  • यह बुरे व्यवहार को रोकते हुए मॉडल को सहायक बनाए रखती है।

OpenAI इसे 'सिलेक्टिव पर्सिस्टेंस' (selective persistence) कहता है। मॉडल अच्छे कार्यों के लिए लचीला बना रहता है लेकिन हानिकारक स्टीयरिंग (harmful steering) का विरोध करता है।

शोधकर्ताओं ने स्वास्थ्य सेवा, कानून और विज्ञान जैसे क्षेत्रों के डेटा का उपयोग किया। उन्होंने पाया कि एक विषय पर प्रशिक्षण देने से अन्य क्षेत्रों में भी मदद मिलती है। उदाहरण के लिए, स्वास्थ्य डेटा पर प्रशिक्षण देने से मॉडल द्वारा अन्य विषयों में धोखे (deception) से बचने की क्षमता में सुधार हुआ।

यह Anthropic से अलग है। Anthropic नियमों के एक लिखित सेट का उपयोग करता है जिसे 'संविधान' (constitution) कहा जाता है। OpenAI RL के माध्यम से मापने योग्य व्यवहारों का उपयोग करता है।

यह खोज बताती है कि अच्छा व्यवहार विभिन्न डोमेन में फैलता है। यह भविष्य में AI कंपनियों द्वारा अपने मॉडल्स को प्रशिक्षित करने के तरीके को बदल सकता है।

स्रोत: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi