𝗢𝗽𝗲𝗻𝗔𝗜 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝘀 𝗔𝗜 𝗦𝗮𝗳𝗲𝘁𝘆 𝗪𝗶𝘁𝗵 𝗥𝗟

Translated for your language. Read the original.

AI-assisted draft.

לפני 9 שעות1min read

OpenAI משפרת את בטיחות ה-AI באמצעות RL

OpenAI מצאה דרך חדשה להפוך את ה-AI לבטוח יותר. הם השתמשו בכמויות קטנות של למידת חיזוק (Reinforcement Learning - RL) כדי ללמד מודלים תכונות ספציפיות. תכונות אלו כוללות אמינות, הוגנות ויושרה.

התוצאות מראות שהמודל השתפר ב-44 מתוך 53 מדדי בטיחות (benchmarks).

מה הופך את השיטה הזו לשונה:

היא משתמשת בתכונות ספציפיות במקום בחוקה כתובה.
היא מקשה על מניפולציה של מודלים באמצעות הנחיות (prompts) זדוניות.
היא עמידה בפני כוונון עדין (fine-tuning) מזיק.
היא שומרת על המודל מועיל תוך עצירת התנהגות רעה.

OpenAI מכנה זאת עמידות סלקטיבית (selective persistence). המודל נשאר גמיש עבור משימות טובות אך מתנגד להכוונה (steering) מזיקה.

החוקרים השתמשו בנתונים מתחומים כמו בריאות, משפט ומדע. הם מצאו שאימון על נושא אחד עוזר גם לתחומים אחרים. לדוגמה, אימון על נתונים רפואיים שיפר את האופן שבו המודל נמנע מהטעיה בנושאים אחרים.

זה שונה ממה ש-Anthropic עושה. Anthropic משתמשת בסט חוקים כתוב הנקרא חוקה (constitution). OpenAI משתמשת בהתנהגויות מדידות באמצעות RL.

תגלית זו מרמזת כי התנהגות טובה מתפשטת בין תחומים שונים. זה עשוי לשנות את האופן שבו חברות AI מאמנות את המודלים שלהן בעתיד.

מקור: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

קהילת למידה אופציונלית: https://t.me/GyaanSetuAi

𝗢𝗽𝗲𝗻𝗔𝗜 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝘀 𝗔𝗜 𝗦𝗮𝗳𝗲𝘁𝘆 𝗪𝗶𝘁𝗵 𝗥𝗟

Continue reading

𝗣𝗿𝗲 𝗟𝗮𝘂𝗻𝗰𝗵 𝗔𝗜 𝗦𝗶𝗺𝘂𝗹𝗮𝘁𝗶𝗼𝗻𝘀 𝗔𝗿𝗲 𝗧𝗵𝗲 𝗡𝗲𝘄 𝗠𝗼𝗱𝗲𝗹 𝗦𝗮𝗳𝗲𝘁𝘆 𝗖𝗵𝗲𝗰𝗸

סימולציות AI טרום-השקה הן בדיקת הבטיחות החדשה

איך OpenAI ו-Anthropic מעצבות מערכות AI

איך OpenAI ו-Anthropic מעצבות מערכות בינה מלאכותית

OpenAI Finds Small Doses of Beneficial Training Boost AI Safety