𝗢𝗽𝗲𝗻𝗔𝗜 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝘀 𝗔𝗜 𝗦𝗮𝗳𝗲𝘁𝘆 𝗪𝗶𝘁𝗵 𝗥𝗟

Translated for your language. Read the original.

AI-assisted draft.

৯ ঘন্টা আগে1min read

𝗢𝗽𝗲𝗻𝗔𝗜 𝗥𝗟-এর মাধ্যমে 𝗔𝗜 𝘀𝗮𝗳𝗲𝘁𝘆 উন্নত করছে

OpenAI AI-কে আরও নিরাপদ করার একটি নতুন উপায় খুঁজে পেয়েছে। তারা মডেলগুলোকে নির্দিষ্ট কিছু বৈশিষ্ট্য শেখানোর জন্য সামান্য পরিমাণে Reinforcement Learning (RL) ব্যবহার করেছে। এই বৈশিষ্ট্যগুলোর মধ্যে রয়েছে সত্যবাদিতা, নিরপেক্ষতা এবং সততা।

ফলাফলগুলো দেখায় যে মডেলটি ৫৩টি সেফটি বেঞ্চমার্কের মধ্যে ৪৪টিতে উন্নতি করেছে।

কেন এই পদ্ধতিটি আলাদা:

এটি কোনো লিখিত সংবিধানের পরিবর্তে নির্দিষ্ট বৈশিষ্ট্য ব্যবহার করে।
এটি মডেলগুলোকে খারাপ প্রম্পট দিয়ে ম্যানিপুলেট করা কঠিন করে তোলে।
এটি ক্ষতিকারক fine-tuning প্রতিরোধ করে।
এটি খারাপ আচরণ বন্ধ করার পাশাপাশি মডেলটিকে সহায়ক হিসেবে বজায় রাখে।

OpenAI একে selective persistence বলে অভিহিত করেছে। মডেলটি ভালো কাজের জন্য নমনীয় থাকে কিন্তু ক্ষতিকারক steering প্রতিরোধ করে।

গবেষকরা স্বাস্থ্যসেবা, আইন এবং বিজ্ঞানের মতো ক্ষেত্র থেকে প্রাপ্ত ডেটা ব্যবহার করেছেন। তারা দেখেছেন যে একটি বিষয়ে প্রশিক্ষণ দিলে তা অন্যান্য ক্ষেত্রেও সাহায্য করে। উদাহরণস্বরূপ, স্বাস্থ্য সংক্রান্ত ডেটাতে প্রশিক্ষণ দিলে মডেলটি অন্যান্য বিষয়ে প্রতারণা এড়ানোর ক্ষেত্রে আরও উন্নত হয়।

এটি Anthropic-এর থেকে আলাদা। Anthropic একটি লিখিত নিয়মের সেট ব্যবহার করে যাকে constitution বলা হয়। OpenAI RL-এর মাধ্যমে পরিমাপযোগ্য আচরণ ব্যবহার করে।

এই আবিষ্কারটি ইঙ্গিত দেয় যে ভালো আচরণ বিভিন্ন ডোমেইনে ছড়িয়ে পড়ে। এটি ভবিষ্যতে AI কোম্পানিগুলো কীভাবে তাদের মডেল প্রশিক্ষণ দেবে তা বদলে দিতে পারে।

Source: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

Optional learning community: https://t.me/GyaanSetuAi

𝗢𝗽𝗲𝗻𝗔𝗜 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝘀 𝗔𝗜 𝗦𝗮𝗳𝗲𝘁𝘆 𝗪𝗶𝘁𝗵 𝗥𝗟

Continue reading

লঞ্চের পূর্ববর্তী এআই সিমুলেশন হলো মডেল নিরাপত্তার নতুন পরীক্ষা

লঞ্চের পূর্ববর্তী এআই সিমুলেশন হলো নতুন নিরাপত্তা পরীক্ষা

OpenAI এবং Anthropic কীভাবে এআই সিস্টেম ডিজাইন করে

OpenAI এবং Anthropic কীভাবে AI সিস্টেম ডিজাইন করে

OpenAI খুঁজে পেয়েছে যে সামান্য পরিমাণ উপকারী প্রশিক্ষণ AI নিরাপত্তা বৃদ্ধি করতে পারে