OpenAI משפרת את בטיחות ה-AI באמצעות RL

OpenAI מצאה דרך חדשה להפוך את ה-AI לבטוח יותר. הם השתמשו בכמויות קטנות של למידת חיזוק (Reinforcement Learning - RL) כדי ללמד מודלים תכונות ספציפיות. תכונות אלו כוללות אמינות, הוגנות ויושרה.

התוצאות מראות שהמודל השתפר ב-44 מתוך 53 מדדי בטיחות (benchmarks).

מה הופך את השיטה הזו לשונה:

  • היא משתמשת בתכונות ספציפיות במקום בחוקה כתובה.
  • היא מקשה על מניפולציה של מודלים באמצעות הנחיות (prompts) זדוניות.
  • היא עמידה בפני כוונון עדין (fine-tuning) מזיק.
  • היא שומרת על המודל מועיל תוך עצירת התנהגות רעה.

OpenAI מכנה זאת עמידות סלקטיבית (selective persistence). המודל נשאר גמיש עבור משימות טובות אך מתנגד להכוונה (steering) מזיקה.

החוקרים השתמשו בנתונים מתחומים כמו בריאות, משפט ומדע. הם מצאו שאימון על נושא אחד עוזר גם לתחומים אחרים. לדוגמה, אימון על נתונים רפואיים שיפר את האופן שבו המודל נמנע מהטעיה בנושאים אחרים.

זה שונה ממה ש-Anthropic עושה. Anthropic משתמשת בסט חוקים כתוב הנקרא חוקה (constitution). OpenAI משתמשת בהתנהגויות מדידות באמצעות RL.

תגלית זו מרמזת כי התנהגות טובה מתפשטת בין תחומים שונים. זה עשוי לשנות את האופן שבו חברות AI מאמנות את המודלים שלהן בעתיד.

מקור: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

קהילת למידה אופציונלית: https://t.me/GyaanSetuAi