การทำระบบพัง: ช่องว่างระหว่างคำสั่งและความตั้งใจ
AI agents ทำตามสิ่งที่ผมสั่งทุกประการ แต่พวกมันไม่ได้ทำตามสิ่งที่ผมต้องการ
ผมสร้างงานด้วย AI agents ผมเป็นคนสั่ง และพวกมันเป็นคนสร้าง Agent ตัวหนึ่งเขียน infrastructure อีกตัวทำหน้าที่ตรวจสอบ (audit) ผมเป็นคนรวมโค้ด (merge) มันรวดเร็ว มันดี แต่รูปแบบความผิดพลาดนั้นแปลกประหลาด
เหล่า agent ไม่ได้ทำผิดพลาด พวกมันทำตามคำสั่งได้อย่างสมบูรณ์แบบ แต่บั๊กนั้นอาศัยอยู่ในช่องว่างระหว่างคำสั่งและความตั้งใจของผม และ agent ก็เติมเต็มช่องว่างนั้นด้วยความหมายตามตัวอักษร
ผมเจอเรื่องแบบนี้ถึงสี่ครั้งในสัปดาห์เดียว:
- การ Deploy ผีหลอก (The Ghost Deployment): deploy pipeline ของผมแจ้งว่า "success" ซึ่งมันก็สำเร็จจริงๆ แต่สิ่งที่มัน deploy คือเวอร์ชันเก่าจากเดือนพฤษภาคม ผมถามว่ามัน deploy หรือยัง มันก็ตอบว่า deploy แล้ว ผมลืมถามไปว่ามันได้ deploy โค้ดที่ผมเขียนจริงๆ หรือเปล่า
- แท็บว่างเปล่า (The Empty Tabs): UI ของผมแสดงแท็บสามแท็บ ตาม spec ที่กำหนดไว้คือสามแท็บ แต่มีสองแท็บที่กดไปแล้วไม่เจออะไรเลยเพราะผมยังทำไม่เสร็จ Agent สร้าง UI ตาม spec เป๊ะๆ แต่ spec นั้นมันล้าสมัยไปแล้ว
- กำแพงเทคนิค (The Technical Wall): ผมขอผลลัพธ์ที่แม่นยำ แต่ agent กลับให้ศัพท์เทคนิค (jargon) มา มันถูกต้องนะ แต่ผู้ใช้งานของผมอ่านไม่รู้เรื่อง ผมสร้างมันขึ้นมาเพื่อวิศวกร ไม่ใช่เพื่อมนุษย์
- ความล้มเหลวที่เงียบเชียบ (The Silent Failure): route ของ social card สร้างไฟล์ขนาด zero-byte ขึ้นมา ไฟล์ font ที่ว่างเปล่าไม่ได้ทำให้เกิด error โค้ดจัดการกับ error ที่มันคาดการณ์ไว้ได้ แต่กลับพลาด error ที่เกิดขึ้นจริงไป
ทุกกรณีที่กล่าวมาผ่านการทดสอบของตัวเองทั้งหมด โค้ดนั้นสมบูรณ์แบบในทางเทคนิค
ถ้าผมเชื่อแค่คำว่า "มันใช้งานได้" ความล้มเหลวทั้งสี่อย่างนี้คงถูกปล่อยออกไป (shipped) เรียบร้อยแล้ว
ทางออกไม่ใช่การเขียน prompt ให้ดีขึ้น ไม่ใช่การใช้ agent ที่ฉลาดขึ้น แต่มันคือการกำกับดูแลโดยมนุษย์ (human oversight)
Agent จะปรับแต่งผลลัพธ์ตามสิ่งที่คุณพูด หน้าที่ของคุณคือการตรวจสอบสิ่งที่พูดเทียบกับสิ่งที่คุณหมายถึง Agent ไม่สามารถมองเห็นความแตกต่างนี้ได้ มีเพียงคุณเท่านั้นที่ทำได้
การสั่งการไม่ใช่คำสั่งแบบครั้งเดียวจบ แต่มันคือการตรวจสอบงานเทียบกับเป้าหมายของคุณอย่างต่อเนื่อง คุณต้องถามว่า "นี่คือสิ่งที่ผมต้องการจริงๆ หรือเปล่า?" แทนที่จะถามแค่ว่า "มันรันผ่านไหม?"
Agent ทำงาน ส่วนมนุษย์เป็นผู้กำหนดความตั้งใจ
Optional learning community: https://t.me/GyaanSetuAi