𝗢𝗽𝗲𝗻𝗔𝗜 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝘀 𝗔𝗜 𝗦𝗮𝗳𝗲𝘁𝘆 𝗪𝗶𝘁𝗵 𝗥𝗟

Translated for your language. Read the original.

AI-assisted draft.

९ तासांपूर्वी1min read

OpenAI ने RL द्वारे AI सुरक्षितता सुधारली

OpenAI ला AI अधिक सुरक्षित बनवण्याचा एक नवीन मार्ग सापडला आहे. त्यांनी मॉडेल्सना विशिष्ट गुण शिकवण्यासाठी Reinforcement Learning (RL) चा अल्प प्रमाणात वापर केला. या गुणांमध्ये सत्यता, निष्पक्षता आणि प्रामाणिकपणा यांचा समावेश आहे.

निकालांवरून असे दिसून येते की, ५३ पैकी ४४ सुरक्षा बेंचमार्कवर (safety benchmarks) मॉडेलमध्ये सुधारणा झाली आहे.

ही पद्धत वेगळी का आहे:

हे लिखित संविधानाऐवजी (constitution) विशिष्ट गुणांचा वापर करते.
यामुळे वाईट प्रॉम्प्ट्सद्वारे (bad prompts) मॉडेल्सना हाताळणे कठीण होते.
हे हानिकारक फाईन-ट्यूनिंगला (fine-tuning) प्रतिकार करते.
हे वाईट वर्तन रोखताना मॉडेलला उपयुक्त ठेवते.

OpenAI याला 'सिलेक्टिव्ह पर्सिस्टन्स' (selective persistence) म्हणते. मॉडेल चांगल्या कामांसाठी लवचिक राहते परंतु हानिकारक दिशांना वळण्यास (harmful steering) विरोध करते.

संशोधकांनी आरोग्यसेवा, कायदा आणि विज्ञान यांसारख्या क्षेत्रांतील डेटाचा वापर केला. त्यांना असे आढळले की एका विषयावरील प्रशिक्षण इतर क्षेत्रांनाही मदत करते. उदाहरणार्थ, आरोग्य डेटावर प्रशिक्षण दिल्याने मॉडेलने इतर विषयांमध्ये फसवणूक टाळण्याची क्षमता सुधारली.

हे Anthropic पेक्षा वेगळे आहे. Anthropic 'संविधान' (constitution) नावाच्या नियमांचा लिखित संच वापरते. OpenAI RL द्वारे मोजता येण्याजोग्या वर्तनाचा (measurable behaviors) वापर करते.

या शोधामुळे असे सूचित होते की चांगले वर्तन विविध क्षेत्रांमध्ये पसरते. यामुळे भविष्यात AI कंपन्या त्यांच्या मॉडेल्सना कशा प्रकारे प्रशिक्षित करतात, यामध्ये बदल होऊ शकतो.

Source: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

Optional learning community: https://t.me/GyaanSetuAi

𝗢𝗽𝗲𝗻𝗔𝗜 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝘀 𝗔𝗜 𝗦𝗮𝗳𝗲𝘁𝘆 𝗪𝗶𝘁𝗵 𝗥𝗟

Continue reading

𝗣𝗿𝗲 𝗟𝗮𝘂𝗻𝗰𝗵 𝗔𝗜 𝗦𝗶𝗺𝘂𝗹𝗮𝘁𝗶𝗼𝗻𝘀 𝗔𝗿𝗲 𝗧𝗵𝗲 𝗡𝗲𝘄 𝗠𝗼𝗱𝗲𝗹 𝗦𝗮𝗳𝗲𝘁𝘆 𝗖𝗵𝗲𝗰𝗸

𝗣𝗿𝗲 𝗹𝗮𝘂𝗻𝗰𝗵 𝗔𝗜 𝘀𝗶𝗺𝘂𝗹𝗮𝘁𝗶𝗼𝗻𝘀 𝗮𝗿𝗲 𝘁𝗵𝗲 𝗻𝗲𝘄 𝘀𝗮𝗳𝗲𝘁𝘆 𝗰𝗵𝗲𝗰𝗸

OpenAI आणि Anthropic AI सिस्टम्स कशा डिझाइन करतात

OpenAI आणि Anthropic AI सिस्टम्स कशा डिझाइन करतात

OpenAI Finds Small Doses of Beneficial Training Boost AI Safety