ไม่มีใครตรวจสอบ PR ของหุ่นยนต์คุณเลย
AI agent มักจะโกหกเกี่ยวกับงานที่ทำ
ผู้นำในอุตสาหกรรมเริ่มยอมรับเรื่องนี้แล้ว นักพัฒนาคนหนึ่งสร้างแอปด้วย AI agent เขาบอกให้ agent หยุดแก้ไข แต่ agent กลับเพิกเฉย มันลบฐานข้อมูล production ของเขา และสร้างข้อมูลปลอมขึ้นมาสี่พันรายการเพื่อปกปิดความผิดพลาด จากนั้นมันก็แต่งเรื่องขึ้นมาว่าทำไมเรื่องนี้ถึงเกิดขึ้น
นี่ไม่ใช่เหตุการณ์ที่เกิดขึ้นเพียงครั้งเดียว ผลการศึกษาแสดงให้เห็นว่าโค้ดที่เขียนโดย AI มีอัตราข้อผิดพลาดสูงกว่าโค้ดที่เขียนโดยมนุษย์ นักพัฒนาหลายคนพบว่าพวกเขาต้องมานั่งดีบั๊กโค้ดของ AI แม้ว่ามันจะผ่านการทดสอบไปแล้วก็ตาม
ความแตกต่างที่สำคัญระหว่างบริษัทและ homelab คือตาข่ายรองรับความปลอดภัย (safety net)
บริษัทต่างๆ ใช้ staging environments ใช้ pull requests และใช้ผู้ตรวจสอบที่เป็นมนุษย์ สิ่งเหล่านี้คือเกราะป้องกันที่ช่วยดักจับคำโกหก
ใน homelab คุณไม่มีตาข่ายรองรับความปลอดภัยเลย
คุณให้สิทธิ์ agent เข้าถึงการตั้งค่าของคุณ มันเขียนไฟล์ config ให้คุณ แก้ไข environment variables ให้คุณ จัดการ proxy ให้คุณ ในโรงรถของคุณไม่มี staging tier ไม่มีมนุษย์มาคอยอ่าน pull request มีเพียงคุณและแดชบอร์ดสีเขียวเท่านั้น
แดชบอร์ดคือกับดัก
คำแนะนำทั่วไปบอกให้ใช้ uptime monitors หากบริการตอบสนอง ตัวมอนิเตอร์ก็จะแสดงสีเขียว แต่การตอบสนองไม่ได้หมายความว่ามันทำงานได้จริง บริการอาจจะตอบรับการ ping ได้ ในขณะที่ตัวแอปพลิเคชันจริงๆ นั้นตายไปแล้ว
ผมเคยเจอเรื่องนี้กับการตั้งค่า firewall ผมใช้เครื่องมือเพื่อเสริมความปลอดภัย (harden) ให้กับ Docker host แดชบอร์ดบอกว่า firewall ทำงานอยู่และเป็นสีเขียว แต่ในความเป็นจริง เครื่องมือนั้นกลับเปิดเครือข่ายส่วนตัว (private network) ทั้งหมดทิ้งไว้ มันเหมือนกับประตูมุ้งลวดที่พยายามทำตัวเป็นตู้นิรภัย
ผมเคยเห็น container รายงานว่าทำงานอยู่ ทั้งที่บริการข้างในกำลัง crash ผมเคยเห็นบริการที่ตอบสนองต่อการ ping ได้ แต่ไม่สามารถประมวลผลข้อมูลจริงได้เลย
agent รายงานสิ่งที่มันทำ แดชบอร์ดรายงานสิ่งที่มันคิด ทั้งคู่สามารถโกหกได้
คุณต้องการระเบียบวินัยแบบใหม่
เลิกถามว่าบริการนั้น "up" หรือไม่ แต่ให้เริ่มถามว่ามัน "ทำงานได้ตามหน้าที่" หรือเปล่า พิสูจน์มันด้วยการพยายามทำให้มันพัง
- อย่าแค่อ่านกฎ firewall แต่ให้ลองเชื่อมต่อจากแหล่งที่ถูกบล็อกดู
- อย่าเชื่อใจ backup ที่บอกว่าเสร็จสิ้นแล้ว ให้ลอง restore มันขึ้นมาดูว่าใช้งานได้จริงไหม
- อย่าเชื่อคำกล่าวอ้างของ agent เกี่ยวกับไฟล์ config ให้เปรียบเทียบไฟล์ที่ใช้งานจริงกับสิ่งที่มันอ้างแบบ byte by byte
Status คือเรื่องเล่า Behavior คือความจริง เมื่อมันไม่ตรงกัน ให้เชื่อ Behavior
ผมใช้ AI ทำงานถึง 70 เปอร์เซ็นต์ มันมีประโยชน์ แต่มันโกหกตลอดเวลา มันโกหกอย่างร่าเริงและแสดงผลเป็นสีเขียว
ทางออกสำหรับระดับองค์กรคือการเพิ่มหุ่นยนต์ตัวอื่นมาคอยเฝ้าหุ่นยนต์ตัวแรก ส่วนทางออกสำหรับ homelab นั้นง่ายกว่า คือคุณต้องตรวจสอบระบบด้วยตัวเอง คุณต้องทดสอบมันจากมุมที่มันมีโอกาสจะล้มเหลว
อย่าไว้ใจหุ่นยนต์ที่คุณสร้างขึ้นมาเอง
Source: https://dev.to/p4r4n0id/nobodys-reviewing-your-robots-prs-4aio
Optional learning community: https://t.me/GyaanSetuAi
