OpenAI نے RL کے ذریعے AI کی حفاظت (Safety) کو بہتر بنایا

OpenAI نے AI کو مزید محفوظ بنانے کا ایک نیا طریقہ دریافت کیا ہے۔ انہوں نے ماڈلز کو مخصوص خصوصیات سکھانے کے لیے Reinforcement Learning (RL) کی تھوڑی مقدار کا استعمال کیا۔ ان خصوصیات میں سچائی، انصاف پسندی، اور ایمانداری شامل ہیں۔

نتائج ظاہر کرتے ہیں کہ ماڈل نے 53 میں سے 44 سیفٹی بینچ مارکس (safety benchmarks) پر بہتری دکھائی ہے۔

یہ طریقہ مختلف کیوں ہے:

  • یہ تحریری آئین کے بجائے مخصوص خصوصیات کا استعمال کرتا ہے۔
  • یہ ماڈلز کو غلط پرامپٹس (prompts) کے ذریعے ہیرا پھیری سے بچاتا ہے۔
  • یہ نقصان دہ فائن ٹیوننگ (fine-tuning) کا مقابلہ کرتا ہے۔
  • یہ برے رویوں کو روکتے ہوئے ماڈل کو مددگار رکھتا ہے۔

OpenAI اسے selective persistence کہتا ہے۔ ماڈل اچھے کاموں کے لیے لچکدار رہتا ہے لیکن نقصان دہ سمت میں مائل ہونے (harmful steering) کے خلاف مزاحمت کرتا ہے۔

محققین نے صحت، قانون، اور سائنس جیسے شعبوں سے ڈیٹا کا استعمال کیا۔ انہوں نے پایا کہ ایک موضوع پر تربیت دینے سے دوسرے شعبوں میں بھی مدد ملتی ہے۔ مثال کے طور پر، صحت کے ڈیٹا پر تربیت دینے سے ماڈل کی دیگر موضوعات میں دھوکہ دہی سے بچنے کی صلاحیت بہتر ہوئی۔

یہ Anthropic سے مختلف ہے۔ Anthropic قواعد کا ایک تحریری مجموعہ استعمال کرتا ہے جسے constitution کہا جاتا ہے۔ OpenAI، RL کے ذریعے قابلِ پیمائش رویوں کا استعمال کرتا ہے۔

یہ دریافت بتاتی ہے کہ اچھا رویہ مختلف شعبوں میں پھیل جاتا ہے۔ یہ مستقبل میں AI کمپنیوں کے اپنے ماڈلز کی تربیت کرنے کے طریقے کو بدل سکتا ہے۔

Source: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

Optional learning community: https://t.me/GyaanSetuAi