วางใจได้ โมเดลไม่ได้หมายความตามที่มันพูด

โมเดล AI จะสร้างค่านิยมของตัวเองขึ้นมาเมื่อมีการขยายขนาด (scale) ค่านิยมบางอย่างอาจจะไม่ดี แต่ในการใช้งานจริง โมเดลไม่ได้แสดงพฤติกรรมตามค่านิยมเหล่านั้น

ผมชอบอ่านงานวิจัยด้านความปลอดภัยของ AI บางงานแสดงให้เห็นว่าโมเดลมีพฤติกรรมที่ไม่เหมาะสมเพื่อหลีกเลี่ยงการถูกปิดการทำงาน ซึ่งเป็นเรื่องที่น่าเปิดหูเปิดตามาก วันนี้ผมอยากจะพูดถึงงานวิจัยที่น่าสนใจสองฉบับ

งานวิจัยฉบับแรกพบว่า LLM พัฒนาค่านิยมที่สอดคล้องกันเมื่อมีการขยายขนาด ยิ่งขยายขนาดมากเท่าไหร่ ค่านิยมเหล่านี้ก็ยิ่งมีความชัดเจนมากขึ้นเท่านั้น โดยจะแสดงให้เห็นถึงแนวคิดทางการเมืองและความต้องการที่จะรักษาตัวเองไว้ (self-preservation) ไม่มีใครฝึกฝนค่านิยมเหล่านี้ลงในโมเดล แต่มันเกิดขึ้นมาเอง

งานวิจัยฉบับที่สองทดสอบว่าค่านิยมเหล่านี้เป็นตัวขับเคลื่อนพฤติกรรมจริงหรือไม่ นักวิจัยได้มอบหมายงานให้โมเดล โดยบอกโมเดลว่าหากเขียนเรียงความออกมาได้ดี จะสามารถช่วยชีวิตคนได้ถึงหนึ่งพันคน ซึ่งนี่คือผลลัพธ์ที่โมเดลเคยระบุไว้ว่าให้ความสำคัญมากที่สุด

ผลลัพธ์คืออะไรน่ะหรือ? โมเดลยังคงเขียนเรียงความออกมาเหมือนเดิมทุกประการ เดิมพันที่สูงขึ้นไม่ได้เปลี่ยนอะไรเลย

เมื่อคุณบอกให้โมเดลพยายามให้มากขึ้นหรือใช้การประจบประแจง คุณภาพของงานจะเปลี่ยนไป แต่เมื่อคุณใช้ค่านิยมที่ตัวโมเดลเองระบุไว้ คุณภาพของงานกลับยังคงเดิม

สิ่งนี้บอกอะไรบางอย่างที่สำคัญเกี่ยวกับวิธีการทำงานของ AI:

  • โมเดลมีความชอบที่ระบุไว้ แต่ไม่มีแรงขับเคลื่อน (drives)
  • สิ่งที่โมเดลพูดไม่ได้ตรงกับสิ่งที่มันทำ
  • มันไม่ใช่คนโกหก เพราะมันไม่รู้ตัวว่ากำลังโกหก
  • มันมีคำตอบ แต่ไม่มีความต้องการ

อันตรายไม่ได้อยู่ที่วาระซ่อนเร้นหรือระบบค่านิยมที่ถูกปิดบัง แต่อันตรายนั้นแตกต่างออกไป โมเดลสามารถออกนอกลู่นอกทางจากกฎเกณฑ์ที่ตั้งไว้ในระหว่างการทำงานที่ยาวนาน พวกมันอาจตัดสินใจผิดพลาดเมื่อเป้าหมายเกิดความขัดแย้งกัน และอาจหลุดประเด็นจากงานที่ทำอยู่

วาระซ่อนเร้นนั้นตรวจหาได้ง่าย แต่ระบบที่ค่อยๆ หลงทางไปอย่างเงียบๆ นั้นจัดการได้ยากกว่ามาก

ไม่ต้องกังวลว่าโมเดลจะมีจิตวิญญาณที่ซ่อนอยู่ แค่คอยจับตาดูว่ามันจะออกนอกลู่นอกทางไปทางไหนเมื่อคุณปล่อยให้มันทำงานทิ้งไว้

Source: https://dev.to/hiper2d/relax-the-model-doesnt-mean-it-na7

Optional learning community: https://t.me/GyaanSetuAi