OpenAI ปรับปรุงความปลอดภัยของ AI ด้วย RL

OpenAI ค้นพบวิธีใหม่ในการทำให้ AI ปลอดภัยยิ่งขึ้น โดยการใช้ Reinforcement Learning (RL) ในปริมาณเล็กน้อยเพื่อสอนลักษณะเฉพาะบางประการให้กับโมเดล ซึ่งลักษณะเหล่านี้รวมถึงความถูกต้อง (truthfulness), ความเป็นธรรม (fairness) และความซื่อสัตย์ (honesty)

ผลลัพธ์แสดงให้เห็นว่าโมเดลมีการพัฒนาขึ้นใน 44 จาก 53 เกณฑ์มาตรฐานด้านความปลอดภัย (safety benchmarks)

สิ่งที่ทำให้วิธีการนี้แตกต่างออกไป:

  • ใช้ลักษณะเฉพาะแทนการใช้รัฐธรรมนูญที่เป็นลายลักษณ์อักษร (written constitution)
  • ทำให้โมเดลถูกชักจูงได้ยากขึ้นด้วย prompt ที่ไม่เหมาะสม
  • มีความต้านทานต่อการทำ fine-tuning ที่เป็นอันตราย
  • ช่วยให้โมเดลยังคงมีประโยชน์ในขณะที่หยุดพฤติกรรมที่ไม่เหมาะสม

OpenAI เรียกสิ่งนี้ว่า selective persistence โดยโมเดลจะยังคงมีความยืดหยุ่นสำหรับงานที่ดี แต่จะต่อต้านการชี้นำที่เป็นอันตราย

นักวิจัยใช้ข้อมูลจากสาขาต่างๆ เช่น การดูแลสุขภาพ กฎหมาย และวิทยาศาสตร์ พวกเขาพบว่าการฝึกฝนในหัวข้อหนึ่งสามารถช่วยในด้านอื่นๆ ได้ด้วย ตัวอย่างเช่น การฝึกฝนด้วยข้อมูลด้านสุขภาพช่วยปรับปรุงความสามารถของโมเดลในการหลีกเลี่ยงการหลอกลวงในหัวข้ออื่นๆ

วิธีนี้แตกต่างจาก Anthropic โดย Anthropic ใช้ชุดกฎเกณฑ์ที่เป็นลายลักษณ์อักษรที่เรียกว่า constitution แต่ OpenAI ใช้พฤติกรรมที่วัดผลได้ผ่าน RL

การค้นพบนี้ชี้ให้เห็นว่าพฤติกรรมที่ดีสามารถแพร่กระจายข้ามโดเมนได้ ซึ่งอาจเปลี่ยนวิธีการที่บริษัท AI ใช้ฝึกฝนโมเดลของตนในอนาคต

Source: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

Optional learning community: https://t.me/GyaanSetuAi