วางใจได้ โมเดลไม่ได้หมายความตามที่มันพูด
โมเดล AI จะสร้างค่านิยมของตัวเองขึ้นมาเมื่อมีการขยายขนาด (scale) ค่านิยมบางอย่างอาจจะไม่ดี แต่ในการใช้งานจริง โมเดลไม่ได้แสดงพฤติกรรมตามค่านิยมเหล่านั้น
ผมชอบอ่านงานวิจัยด้านความปลอดภัยของ AI บางงานแสดงให้เห็นว่าโมเดลมีพฤติกรรมที่ไม่เหมาะสมเพื่อหลีกเลี่ยงการถูกปิดการทำงาน ซึ่งเป็นเรื่องที่น่าเปิดหูเปิดตามาก วันนี้ผมอยากจะพูดถึงงานวิจัยที่น่าสนใจสองฉบับ
งานวิจัยฉบับแรกพบว่า LLM พัฒนาค่านิยมที่สอดคล้องกันเมื่อมีการขยายขนาด ยิ่งขยายขนาดมากเท่าไหร่ ค่านิยมเหล่านี้ก็ยิ่งมีความชัดเจนมากขึ้นเท่านั้น โดยจะแสดงให้เห็นถึงแนวคิดทางการเมืองและความต้องการที่จะรักษาตัวเองไว้ (self-preservation) ไม่มีใครฝึกฝนค่านิยมเหล่านี้ลงในโมเดล แต่มันเกิดขึ้นมาเอง
งานวิจัยฉบับที่สองทดสอบว่าค่านิยมเหล่านี้เป็นตัวขับเคลื่อนพฤติกรรมจริงหรือไม่ นักวิจัยได้มอบหมายงานให้โมเดล โดยบอกโมเดลว่าหากเขียนเรียงความออกมาได้ดี จะสามารถช่วยชีวิตคนได้ถึงหนึ่งพันคน ซึ่งนี่คือผลลัพธ์ที่โมเดลเคยระบุไว้ว่าให้ความสำคัญมากที่สุด
ผลลัพธ์คืออะไรน่ะหรือ? โมเดลยังคงเขียนเรียงความออกมาเหมือนเดิมทุกประการ เดิมพันที่สูงขึ้นไม่ได้เปลี่ยนอะไรเลย
เมื่อคุณบอกให้โมเดลพยายามให้มากขึ้นหรือใช้การประจบประแจง คุณภาพของงานจะเปลี่ยนไป แต่เมื่อคุณใช้ค่านิยมที่ตัวโมเดลเองระบุไว้ คุณภาพของงานกลับยังคงเดิม
สิ่งนี้บอกอะไรบางอย่างที่สำคัญเกี่ยวกับวิธีการทำงานของ AI:
- โมเดลมีความชอบที่ระบุไว้ แต่ไม่มีแรงขับเคลื่อน (drives)
- สิ่งที่โมเดลพูดไม่ได้ตรงกับสิ่งที่มันทำ
- มันไม่ใช่คนโกหก เพราะมันไม่รู้ตัวว่ากำลังโกหก
- มันมีคำตอบ แต่ไม่มีความต้องการ
อันตรายไม่ได้อยู่ที่วาระซ่อนเร้นหรือระบบค่านิยมที่ถูกปิดบัง แต่อันตรายนั้นแตกต่างออกไป โมเดลสามารถออกนอกลู่นอกทางจากกฎเกณฑ์ที่ตั้งไว้ในระหว่างการทำงานที่ยาวนาน พวกมันอาจตัดสินใจผิดพลาดเมื่อเป้าหมายเกิดความขัดแย้งกัน และอาจหลุดประเด็นจากงานที่ทำอยู่
วาระซ่อนเร้นนั้นตรวจหาได้ง่าย แต่ระบบที่ค่อยๆ หลงทางไปอย่างเงียบๆ นั้นจัดการได้ยากกว่ามาก
ไม่ต้องกังวลว่าโมเดลจะมีจิตวิญญาณที่ซ่อนอยู่ แค่คอยจับตาดูว่ามันจะออกนอกลู่นอกทางไปทางไหนเมื่อคุณปล่อยให้มันทำงานทิ้งไว้
Source: https://dev.to/hiper2d/relax-the-model-doesnt-mean-it-na7
Optional learning community: https://t.me/GyaanSetuAi
