OpenAI RL ద్వారా AI భద్రతను మెరుగుపరుస్తోంది

AIని మరింత సురక్షితంగా మార్చడానికి OpenAI ఒక కొత్త మార్గాన్ని కనుగొంది. మోడల్స్‌కు కొన్ని నిర్దిష్ట లక్షణాలను నేర్పించడానికి వారు తక్కువ మొత్తంలో Reinforcement Learning (RL)ని ఉపయోగించారు. ఈ లక్షణాలలో సత్యసంధత, నిష్పాక్షికత మరియు నిజాయితీ ఉన్నాయి.

53 సేఫ్టీ బెంచ్‌మార్క్‌లలో 44 అంశాలలో మోడల్ మెరుగుపడిందని ఫలితాలు చూపుతున్నాయి.

ఈ పద్ధతిని ప్రత్యేకంగా మార్చే అంశాలు:

  • ఇది వ్రాతపూర్వక నియమావళి (constitution) బదులుగా నిర్దిష్ట లక్షణాలను ఉపయోగిస్తుంది.
  • ఇది తప్పుడు ప్రాంప్ట్‌లతో (bad prompts) మోడల్స్‌ను తారుమారు చేయడం కష్టతరం చేస్తుంది.
  • ఇది హానికరమైన ఫైన్-ట్యూనింగ్‌ను (harmful fine-tuning) నిరోధిస్తుంది.
  • ఇది చెడు ప్రవర్తనను అడ్డుకుంటూనే, మోడల్ సహాయకారిగా ఉండేలా చూస్తుంది.

OpenAI దీనిని 'సెలెక్టివ్ పర్సిస్టెన్స్' (selective persistence) అని పిలుస్తుంది. మోడల్ మంచి పనుల కోసం ఫ్లెక్సిబుల్‌గా ఉంటుంది, కానీ హానికరమైన మార్గదర్శకత్వానికి (harmful steering) లొంగదు.

పరిశోధకులు హెల్త్‌కేర్, చట్టం మరియు సైన్స్ వంటి రంగాల నుండి డేటాను ఉపయోగించారు. ఒక అంశంపై శిక్షణ ఇవ్వడం ఇతర రంగాలకు కూడా సహాయపడుతుందని వారు కనుగొన్నారు. ఉదాహరణకు, ఆరోగ్య డేటాపై శిక్షణ ఇవ్వడం వల్ల మోడల్ ఇతర విషయాలలో మోసపూరిత ప్రవర్తనను (deception) నివారించడంలో మెరుగుపడింది.

ఇది Anthropic నుండి భిన్నమైనది. Anthropic 'కాన్‌స్టిట్యూషన్' (constitution) అని పిలువబడే వ్రాతపూర్వక నియమాలను ఉపయోగిస్తుంది. OpenAI మాత్రం RL ద్వారా కొలవదగిన ప్రవర్తనలను (measurable behaviors) ఉపయోగిస్తుంది.

ఈ ఆవిష్కరణ మంచి ప్రవర్తన వివిధ రంగాలకు విస్తరిస్తుందని సూచిస్తోంది. ఇది భవిష్యత్తులో AI కంపెనీలు తమ మోడల్స్‌కు శిక్షణ ఇచ్చే విధానాన్ని మార్చవచ్చు.

మూలం: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi