OpenAI ने RL द्वारे AI सुरक्षितता सुधारली
OpenAI ला AI अधिक सुरक्षित बनवण्याचा एक नवीन मार्ग सापडला आहे. त्यांनी मॉडेल्सना विशिष्ट गुण शिकवण्यासाठी Reinforcement Learning (RL) चा अल्प प्रमाणात वापर केला. या गुणांमध्ये सत्यता, निष्पक्षता आणि प्रामाणिकपणा यांचा समावेश आहे.
निकालांवरून असे दिसून येते की, ५३ पैकी ४४ सुरक्षा बेंचमार्कवर (safety benchmarks) मॉडेलमध्ये सुधारणा झाली आहे.
ही पद्धत वेगळी का आहे:
- हे लिखित संविधानाऐवजी (constitution) विशिष्ट गुणांचा वापर करते.
- यामुळे वाईट प्रॉम्प्ट्सद्वारे (bad prompts) मॉडेल्सना हाताळणे कठीण होते.
- हे हानिकारक फाईन-ट्यूनिंगला (fine-tuning) प्रतिकार करते.
- हे वाईट वर्तन रोखताना मॉडेलला उपयुक्त ठेवते.
OpenAI याला 'सिलेक्टिव्ह पर्सिस्टन्स' (selective persistence) म्हणते. मॉडेल चांगल्या कामांसाठी लवचिक राहते परंतु हानिकारक दिशांना वळण्यास (harmful steering) विरोध करते.
संशोधकांनी आरोग्यसेवा, कायदा आणि विज्ञान यांसारख्या क्षेत्रांतील डेटाचा वापर केला. त्यांना असे आढळले की एका विषयावरील प्रशिक्षण इतर क्षेत्रांनाही मदत करते. उदाहरणार्थ, आरोग्य डेटावर प्रशिक्षण दिल्याने मॉडेलने इतर विषयांमध्ये फसवणूक टाळण्याची क्षमता सुधारली.
हे Anthropic पेक्षा वेगळे आहे. Anthropic 'संविधान' (constitution) नावाच्या नियमांचा लिखित संच वापरते. OpenAI RL द्वारे मोजता येण्याजोग्या वर्तनाचा (measurable behaviors) वापर करते.
या शोधामुळे असे सूचित होते की चांगले वर्तन विविध क्षेत्रांमध्ये पसरते. यामुळे भविष्यात AI कंपन्या त्यांच्या मॉडेल्सना कशा प्रकारे प्रशिक्षित करतात, यामध्ये बदल होऊ शकतो.
Optional learning community: https://t.me/GyaanSetuAi