OpenAI ने RL के साथ AI सुरक्षा में सुधार किया

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

9 घंटे पहले1मिनट पढ़ें

OpenAI ने RL के साथ AI सुरक्षा में सुधार किया

OpenAI ने AI को अधिक सुरक्षित बनाने का एक नया तरीका खोजा है। उन्होंने मॉडल्स को विशिष्ट गुण सिखाने के लिए Reinforcement Learning (RL) की अल्प मात्रा का उपयोग किया। इन गुणों में सत्यनिष्ठा, निष्पक्षता और ईमानदारी शामिल हैं।

परिणाम दिखाते हैं कि मॉडल ने 53 में से 44 सुरक्षा बेंचमार्क (safety benchmarks) में सुधार किया है।

यह विधि अलग क्यों है:

यह लिखित संविधान के बजाय विशिष्ट गुणों का उपयोग करती है।
यह मॉडल्स को खराब प्रॉम्प्ट्स (bad prompts) के माध्यम से हेरफेर करना कठिन बना देती है।
यह हानिकारक फाइन-ट्यूनिंग (fine-tuning) का विरोध करती है।
यह बुरे व्यवहार को रोकते हुए मॉडल को सहायक बनाए रखती है।

OpenAI इसे 'सिलेक्टिव पर्सिस्टेंस' (selective persistence) कहता है। मॉडल अच्छे कार्यों के लिए लचीला बना रहता है लेकिन हानिकारक स्टीयरिंग (harmful steering) का विरोध करता है।

शोधकर्ताओं ने स्वास्थ्य सेवा, कानून और विज्ञान जैसे क्षेत्रों के डेटा का उपयोग किया। उन्होंने पाया कि एक विषय पर प्रशिक्षण देने से अन्य क्षेत्रों में भी मदद मिलती है। उदाहरण के लिए, स्वास्थ्य डेटा पर प्रशिक्षण देने से मॉडल द्वारा अन्य विषयों में धोखे (deception) से बचने की क्षमता में सुधार हुआ।

यह Anthropic से अलग है। Anthropic नियमों के एक लिखित सेट का उपयोग करता है जिसे 'संविधान' (constitution) कहा जाता है। OpenAI RL के माध्यम से मापने योग्य व्यवहारों का उपयोग करता है।

यह खोज बताती है कि अच्छा व्यवहार विभिन्न डोमेन में फैलता है। यह भविष्य में AI कंपनियों द्वारा अपने मॉडल्स को प्रशिक्षित करने के तरीके को बदल सकता है।

स्रोत: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

OpenAI ने RL के साथ AI सुरक्षा में सुधार किया

पढ़ना जारी रखें

प्री-लॉन्च एआई सिमुलेशन मॉडल सुरक्षा जांच का नया तरीका हैं

लॉन्च से पहले के AI सिमुलेशन अब नए सुरक्षा चेक हैं

OpenAI और Anthropic AI सिस्टम कैसे डिज़ाइन करते हैं

OpenAI और Anthropic AI सिस्टम कैसे डिज़ाइन करते हैं

OpenAI ने पाया कि फायदेमंद ट्रेनिंग की छोटी खुराक AI सुरक्षा को बढ़ा सकती है