Anthropic กลับมาเปิดให้ใช้งาน Fable 5 ทั่วโลกอีกครั้ง หลังถูกรัฐบาลสหรัฐฯ สั่งระงับ
Anthropic ได้กลับมาเปิดตัว Fable 5 ซึ่งเป็นโมเดล AI ที่ทรงพลังที่สุดของบริษัทไปทั่วโลกอย่างเป็นทางการอีกครั้ง หลังจากถูกรัฐบาลสหรัฐฯ สั่งระงับการใช้งานเป็นเวลาสองสัปดาห์ การสั่งระงับดังกล่าวมีสาเหตุมาจากข้อค้นพบด้านความปลอดภัยที่สำคัญเกี่ยวกับช่องโหว่ในการทำ jailbreak ซึ่งทำให้โมเดลสามารถข้ามผ่านระบบป้องกันความปลอดภัย (safety guardrails) ที่กำหนดไว้ได้
ช่องโหว่: จากงานวิจัยเชิงป้องกันสู่ความเสี่ยงด้านความปลอดภัย
ข้อจำกัดที่เกิดขึ้นอย่างกะทันหันนี้มีต้นตอมาจากรายงานด้านความปลอดภัยโดยนักวิจัยของ Amazon ที่ประสบความสำเร็จในการข้ามผ่านโปรโตคอลความปลอดภัยของ Fable 5 นักวิจัยพบว่าโมเดลสามารถระบุช่องโหว่เฉพาะของซอฟต์แวร์ได้ และในกรณีที่น่าสนใจกรณีหนึ่ง โมเดลยังสามารถสร้างโค้ดที่ใช้งานได้จริงเพื่อใช้โจมตีช่องโหว่เหล่านั้นอีกด้วย
แม้ว่า Anthropic จะระบุว่ากรณีนี้เป็นเพียง "edge case" ที่เกี่ยวข้องกับงานด้านความปลอดภัยทางไซเบอร์เชิงป้องกันตามปกติ แต่ความเสี่ยงที่อาจเกิดการนำไปใช้ในทางที่ผิดทำให้จำเป็นต้องมีการสืบสวนร่วมกันระหว่างบริษัทและหน่วยงานของรัฐบาลสหรัฐฯ สิ่งที่น่าสนใจคือ ผลการสืบสวนเผยให้เห็นว่าความสามารถในการระบุข้อบกพร่องเหล่านี้ไม่ได้จำกัดอยู่แค่ใน Fable 5 เท่านั้น แต่โมเดลอื่นๆ รวมถึง Claude Opus 4.8, GPT-5.5 และ Kimi K2.7 ก็แสดงความสามารถที่คล้ายคลึงกัน แม้แต่โมเดลขนาดเล็กอย่าง Claude Haiku 4.5 ก็ให้ผลลัพธ์ในการโจมตีที่เหมือนกันในระหว่างการทดสอบ
การนำระบบ Safety Classifier ใหม่มาใช้ และการแลกเปลี่ยนกับปัญหา "False Positive"
เพื่อแก้ไขปัญหานี้ Anthropic ได้ติดตั้งระบบ safety classifier ที่ได้รับการปรับปรุงใหม่ ซึ่งออกแบบมาเพื่อบล็อกเทคนิคการโจมตีเฉพาะที่ระบุไว้ในรายงานของ Amazon ด้วยความแม่นยำมากกว่า 99% เมื่อคำขอของผู้ใช้ไปกระตุ้นการป้องกันชั้นใหม่นี้ ผู้ใช้จะได้รับการแจ้งเตือน และคำถามจะถูกส่งต่อไปยังโมเดล Claude Opus 4.8 รุ่นเก่าที่มีข้อจำกัดมากกว่าโดยอัตโนมัติ
อย่างไรก็ตาม ความปลอดภัยที่เพิ่มขึ้นนี้ต้องแลกมาด้วยต้นทุนด้านการใช้งาน Anthropic ยอมรับว่า classifier ตัวใหม่มีแนวโน้มที่จะระบุว่าคำขอที่ไม่มีอันตรายเป็นสิ่งที่ผิดพลาด (flag) บ่อยครั้งขึ้นในระหว่างการเขียนโค้ดและการดีบั๊ก (debugging) ตามปกติ "ขอบเขตความปลอดภัย" (safety margin) นี้สร้างความตึงเครียดระหว่างความแข็งแกร่งของระบบและความสามารถในการใช้งาน ซึ่งเป็นความท้าทายที่เกิดขึ้นซ้ำๆ ในการปรับใช้โมเดลระดับแนวหน้า (frontier model) ที่การป้องกันผลลัพธ์ที่เป็นอันตรายมักนำไปสู่การ "ปฏิเสธ" (refusals) คำถามที่ถูกต้องตามกฎเกณฑ์ของนักพัฒนาเพิ่มมากขึ้น
การผลักดันมาตรฐานอุตสาหกรรมและการกำกับดูแลโดยรัฐบาล
เหตุการณ์ของ Fable 5 ได้เร่งให้ Anthropic ผลักดันการสร้างมาตรฐานความปลอดภัยที่เป็นทางการทั่วทั้งอุตสาหกรรม ขณะนี้บริษัทกำลังร่วมมือกับ Amazon, Microsoft และ Google ผ่านโปรแกรม "Glasswing" เพื่อสร้างกรอบการทำงานสำหรับการจัดลำดับความรุนแรงของการ jailbreak และการใช้มาตรการตอบโต้ที่เป็นมาตรฐาน เพื่อเสริมความแข็งแกร่งในด้านนี้ Anthropic ได้จัดตั้งทีมตรวจสอบตลอด 24 ชั่วโมงทุกวัน และโปรแกรม HackerOne ใหม่ เพื่อสร้างแรงจูงใจให้นักวิจัยด้านความปลอดภัยรายงานการ jailbreak ที่เกี่ยวข้องกับไซเบอร์
นอกจากนี้ Anthropic ยังสนับสนุนให้มี "กฎระเบียบที่เข้มงวด" ซึ่งบังคับใช้กับผู้พัฒนาโมเดลระดับแนวหน้าทุกรายอย่างเท่าเทียมกัน ด้วยการเสนอให้พันธมิตรภาครัฐสามารถเข้าถึงโมเดลที่มีความอ่อนไหวต่อความปลอดภัยได้ก่อนการเปิดตัว และการอุทิศทรัพยากรการประมวลผล (compute) จำนวนมากสำหรับการวิจัยร่วมกัน Anthropic จึงกำลังวางตำแหน่งตัวเองเป็นผู้นำในการเคลื่อนไหวไปสู่การกำกับดูแล AI ที่โปร่งใสและสอดคล้องกับแนวทางของรัฐบาล
สรุปประเด็นสำคัญ
- การกลับมาใช้งานได้อีกครั้ง: Fable 5 พร้อมใช้งานอีกครั้งผ่าน Claude.ai, Claude Code และ Claude Cowork โดยแผน Pro, Max และ Team จะสามารถเข้าถึงได้จนถึงวันที่ 7 กรกฎาคม
- ชั้นการป้องกันใหม่: Anthropic ได้นำ safety classifier มาใช้เพื่อบล็อกเทคนิคการโจมตีที่ตรวจพบได้ถึง 99% แม้ว่าอาจจะเพิ่มปัญหา false positive ในขั้นตอนการทำงานด้านการเขียนโค้ดก็ตาม
- ความร่วมมือด้านความปลอดภัย: Anthropic กำลังร่วมมือกับยักษ์ใหญ่ด้านเทคโนโลยีและรัฐบาลสหรัฐฯ เพื่อกำหนดมาตรฐานอุตสาหกรรมร่วมกันในการตรวจสอบและตอบสนองต่อการ jailbreak ของโมเดลระดับแนวหน้า
