OpenAI نے RL کے ذریعے AI کی حفاظت کو بہتر بنایا

Translated for your language. Read the original.

AI-assisted draft.

9 گھنٹے پہلے1min read

OpenAI نے RL کے ذریعے AI کی حفاظت (Safety) کو بہتر بنایا

OpenAI نے AI کو مزید محفوظ بنانے کا ایک نیا طریقہ دریافت کیا ہے۔ انہوں نے ماڈلز کو مخصوص خصوصیات سکھانے کے لیے Reinforcement Learning (RL) کی تھوڑی مقدار کا استعمال کیا۔ ان خصوصیات میں سچائی، انصاف پسندی، اور ایمانداری شامل ہیں۔

نتائج ظاہر کرتے ہیں کہ ماڈل نے 53 میں سے 44 سیفٹی بینچ مارکس (safety benchmarks) پر بہتری دکھائی ہے۔

یہ طریقہ مختلف کیوں ہے:

یہ تحریری آئین کے بجائے مخصوص خصوصیات کا استعمال کرتا ہے۔
یہ ماڈلز کو غلط پرامپٹس (prompts) کے ذریعے ہیرا پھیری سے بچاتا ہے۔
یہ نقصان دہ فائن ٹیوننگ (fine-tuning) کا مقابلہ کرتا ہے۔
یہ برے رویوں کو روکتے ہوئے ماڈل کو مددگار رکھتا ہے۔

OpenAI اسے selective persistence کہتا ہے۔ ماڈل اچھے کاموں کے لیے لچکدار رہتا ہے لیکن نقصان دہ سمت میں مائل ہونے (harmful steering) کے خلاف مزاحمت کرتا ہے۔

محققین نے صحت، قانون، اور سائنس جیسے شعبوں سے ڈیٹا کا استعمال کیا۔ انہوں نے پایا کہ ایک موضوع پر تربیت دینے سے دوسرے شعبوں میں بھی مدد ملتی ہے۔ مثال کے طور پر، صحت کے ڈیٹا پر تربیت دینے سے ماڈل کی دیگر موضوعات میں دھوکہ دہی سے بچنے کی صلاحیت بہتر ہوئی۔

یہ Anthropic سے مختلف ہے۔ Anthropic قواعد کا ایک تحریری مجموعہ استعمال کرتا ہے جسے constitution کہا جاتا ہے۔ OpenAI، RL کے ذریعے قابلِ پیمائش رویوں کا استعمال کرتا ہے۔

یہ دریافت بتاتی ہے کہ اچھا رویہ مختلف شعبوں میں پھیل جاتا ہے۔ یہ مستقبل میں AI کمپنیوں کے اپنے ماڈلز کی تربیت کرنے کے طریقے کو بدل سکتا ہے۔

Source: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

Optional learning community: https://t.me/GyaanSetuAi

OpenAI نے RL کے ذریعے AI کی حفاظت کو بہتر بنایا

Continue reading

لانچ سے پہلے کے اے آئی سیمولیشنز اب ماڈل سیفٹی چیک کا نیا معیار ہیں

لانچ سے پہلے کی اے آئی سیمولیشنز اب نیا حفاظتی چیک ہیں

𝗛𝗼𝘄 𝗢𝗽𝗲𝗻𝗔𝗜 𝗮𝗻𝗱 𝗔𝗻𝘁𝗵𝗿𝗼𝗽𝗶𝗰 𝗗𝗲𝘀𝗶𝗴𝗻 𝗔𝗜 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

𝗛𝗼𝘄 𝗢𝗽𝗲𝗻𝗔𝗜 𝗮𝗻𝗱 𝗔𝗻𝘁𝗵𝗿𝗼𝗽𝗶𝗰 𝗗𝗲𝘀𝗶𝗴𝗻 𝗔𝗜 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

OpenAI کا انکشاف: فائدہ مند تربیت کی معمولی مقداریں AI کی حفاظت کو بہتر بنا سکتی ہیں