RL ద్వారా OpenAI AI భద్రతను మెరుగుపరుస్తుంది

Translated for your language. Read the original.

AI-assisted draft.

9 గంటల క్రితం1min read

OpenAI RL ద్వారా AI భద్రతను మెరుగుపరుస్తోంది

AIని మరింత సురక్షితంగా మార్చడానికి OpenAI ఒక కొత్త మార్గాన్ని కనుగొంది. మోడల్స్‌కు కొన్ని నిర్దిష్ట లక్షణాలను నేర్పించడానికి వారు తక్కువ మొత్తంలో Reinforcement Learning (RL)ని ఉపయోగించారు. ఈ లక్షణాలలో సత్యసంధత, నిష్పాక్షికత మరియు నిజాయితీ ఉన్నాయి.

53 సేఫ్టీ బెంచ్‌మార్క్‌లలో 44 అంశాలలో మోడల్ మెరుగుపడిందని ఫలితాలు చూపుతున్నాయి.

ఈ పద్ధతిని ప్రత్యేకంగా మార్చే అంశాలు:

ఇది వ్రాతపూర్వక నియమావళి (constitution) బదులుగా నిర్దిష్ట లక్షణాలను ఉపయోగిస్తుంది.
ఇది తప్పుడు ప్రాంప్ట్‌లతో (bad prompts) మోడల్స్‌ను తారుమారు చేయడం కష్టతరం చేస్తుంది.
ఇది హానికరమైన ఫైన్-ట్యూనింగ్‌ను (harmful fine-tuning) నిరోధిస్తుంది.
ఇది చెడు ప్రవర్తనను అడ్డుకుంటూనే, మోడల్ సహాయకారిగా ఉండేలా చూస్తుంది.

OpenAI దీనిని 'సెలెక్టివ్ పర్సిస్టెన్స్' (selective persistence) అని పిలుస్తుంది. మోడల్ మంచి పనుల కోసం ఫ్లెక్సిబుల్‌గా ఉంటుంది, కానీ హానికరమైన మార్గదర్శకత్వానికి (harmful steering) లొంగదు.

పరిశోధకులు హెల్త్‌కేర్, చట్టం మరియు సైన్స్ వంటి రంగాల నుండి డేటాను ఉపయోగించారు. ఒక అంశంపై శిక్షణ ఇవ్వడం ఇతర రంగాలకు కూడా సహాయపడుతుందని వారు కనుగొన్నారు. ఉదాహరణకు, ఆరోగ్య డేటాపై శిక్షణ ఇవ్వడం వల్ల మోడల్ ఇతర విషయాలలో మోసపూరిత ప్రవర్తనను (deception) నివారించడంలో మెరుగుపడింది.

ఇది Anthropic నుండి భిన్నమైనది. Anthropic 'కాన్‌స్టిట్యూషన్' (constitution) అని పిలువబడే వ్రాతపూర్వక నియమాలను ఉపయోగిస్తుంది. OpenAI మాత్రం RL ద్వారా కొలవదగిన ప్రవర్తనలను (measurable behaviors) ఉపయోగిస్తుంది.

ఈ ఆవిష్కరణ మంచి ప్రవర్తన వివిధ రంగాలకు విస్తరిస్తుందని సూచిస్తోంది. ఇది భవిష్యత్తులో AI కంపెనీలు తమ మోడల్స్‌కు శిక్షణ ఇచ్చే విధానాన్ని మార్చవచ్చు.

మూలం: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi

RL ద్వారా OpenAI AI భద్రతను మెరుగుపరుస్తుంది

Continue reading

ప్రీ-లాంచ్ AI సిమ్యులేషన్లే కొత్త మోడల్ సేఫ్టీ చెక్

ప్రీ-లాంచ్ AI సిమ్యులేషన్లు కొత్త భద్రతా తనిఖీలు

OpenAI మరియు Anthropic AI వ్యవస్థలను ఎలా రూపొందిస్తాయి

𝗛𝗼𝘄 𝗢𝗽𝗲𝗻𝗔𝗜 𝗮𝗻𝗱 𝗔𝗻𝘁𝗵𝗿𝗼𝗽𝗶𝗰 𝗗𝗲𝘀𝗶𝗴𝗻 𝗔𝗜 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

AI భద్రతను పెంచే ప్రయోజనకరమైన శిక్షణ యొక్క తక్కువ మోతాదులను OpenAI కనుగొంది