OpenAI ปรับปรุงความปลอดภัยของ AI ด้วย RL
OpenAI ค้นพบวิธีใหม่ในการทำให้ AI ปลอดภัยยิ่งขึ้น โดยการใช้ Reinforcement Learning (RL) ในปริมาณเล็กน้อยเพื่อสอนลักษณะเฉพาะบางประการให้กับโมเดล ซึ่งลักษณะเหล่านี้รวมถึงความถูกต้อง (truthfulness), ความเป็นธรรม (fairness) และความซื่อสัตย์ (honesty)
ผลลัพธ์แสดงให้เห็นว่าโมเดลมีการพัฒนาขึ้นใน 44 จาก 53 เกณฑ์มาตรฐานด้านความปลอดภัย (safety benchmarks)
สิ่งที่ทำให้วิธีการนี้แตกต่างออกไป:
- ใช้ลักษณะเฉพาะแทนการใช้รัฐธรรมนูญที่เป็นลายลักษณ์อักษร (written constitution)
- ทำให้โมเดลถูกชักจูงได้ยากขึ้นด้วย prompt ที่ไม่เหมาะสม
- มีความต้านทานต่อการทำ fine-tuning ที่เป็นอันตราย
- ช่วยให้โมเดลยังคงมีประโยชน์ในขณะที่หยุดพฤติกรรมที่ไม่เหมาะสม
OpenAI เรียกสิ่งนี้ว่า selective persistence โดยโมเดลจะยังคงมีความยืดหยุ่นสำหรับงานที่ดี แต่จะต่อต้านการชี้นำที่เป็นอันตราย
นักวิจัยใช้ข้อมูลจากสาขาต่างๆ เช่น การดูแลสุขภาพ กฎหมาย และวิทยาศาสตร์ พวกเขาพบว่าการฝึกฝนในหัวข้อหนึ่งสามารถช่วยในด้านอื่นๆ ได้ด้วย ตัวอย่างเช่น การฝึกฝนด้วยข้อมูลด้านสุขภาพช่วยปรับปรุงความสามารถของโมเดลในการหลีกเลี่ยงการหลอกลวงในหัวข้ออื่นๆ
วิธีนี้แตกต่างจาก Anthropic โดย Anthropic ใช้ชุดกฎเกณฑ์ที่เป็นลายลักษณ์อักษรที่เรียกว่า constitution แต่ OpenAI ใช้พฤติกรรมที่วัดผลได้ผ่าน RL
การค้นพบนี้ชี้ให้เห็นว่าพฤติกรรมที่ดีสามารถแพร่กระจายข้ามโดเมนได้ ซึ่งอาจเปลี่ยนวิธีการที่บริษัท AI ใช้ฝึกฝนโมเดลของตนในอนาคต
Optional learning community: https://t.me/GyaanSetuAi