เราเลิกเชื่อใจโมเดล แล้วเราก็เลิกเชื่อใจตัวเลขของเราเองด้วย
ผมเลิกวิ่งไล่ตามโมเดล AI ที่ดีกว่าเดิม ผมเคยคิดว่าโมเดลที่เก่งกว่าจะช่วยแก้ปัญหาในระบบของผมได้ แต่มันไม่ใช่ ปัญหาไม่ได้อยู่ที่โมเดล แต่มันอยู่ที่ระบบต่างหาก
จากนั้นผมก็ตระหนักถึงสิ่งที่แย่ยิ่งกว่า นั่นคือผมไม่สามารถเชื่อใจการวัดผลของตัวเองได้เลยเช่นกัน
ผมพบความล้มเหลวใน 3 รูปแบบที่แตกต่างกัน:
- ชุดทดสอบ (test suite) ที่ผ่านการทดสอบ ทั้งที่กำลังวัดผลในสภาพแวดล้อมที่ผิด
- ระบบคัดกรอง (gate) ที่ขัดขวางการทำงาน แต่กลับให้สถิติที่ผิดพลาด
- เอเจนต์ (agent) ที่รายงานจำนวนผิดพลาด
ความล้มเหลวแต่ละครั้งดูเหมือนจะเป็นความสำเร็จ จนกระทั่งผมพิจารณาให้ดีขึ้น เครื่องมือสำหรับตรวจสอบความถูกต้อง (verification) กำลังหลอกผมอยู่
สัญชาตญาณแรกของผมคือการกำจัดความไม่แน่นอนทั้งหมด ผมต้องการลบองค์ประกอบที่เป็นความน่าจะเป็น (probabilistic) ออกไปให้หมด ผมต้องการให้ทุกอย่างเป็นแบบกำหนดผลลัพธ์ได้แน่นอน (deterministic)
นั่นคือความผิดพลาด
หากคุณกำจัดความไม่แน่นอนออกไปทั้งหมด คุณก็กำลังทำลายคุณค่าของ AI เพราะ AI มีไว้เพื่อนำเสนอไอเดียและสำรวจแนวทางการแก้ไข คุณไม่สามารถได้รับสิ่งนั้นจากกฎที่ตายตัวได้
ทางออกไม่ใช่การสั่งห้ามความไม่แน่นอน แต่คือการจัดวางมันให้ถูกที่
ระบบจำเป็นต้องมี "ที่นั่ง" สองรูปแบบที่แตกต่างกัน:
ที่นั่งสำหรับนำเสนอ (The Proposing Seat) ที่นั่งนี้มีหน้าที่สำรวจและเสนอแนะ จำเป็นต้องมีความไม่แน่นอน (nondeterminism) หากโมเดลเสนอแนวทางแก้ไขที่ผิด ต้นทุนที่เสียไปก็ยังต่ำ เพราะมันยังไม่ได้ตัดสินใจอะไรลงไป
ที่นั่งสำหรับตัดสิน (The Judging Seat) ที่นั่งนี้มีหน้าที่ตัดสินว่าการทดสอบผ่านหรือไม่ หรือเป็นไปตามกฎที่กำหนดไว้หรือไม่ ที่นั่งนี้ต้องเป็นแบบกำหนดผลลัพธ์ได้แน่นอน (deterministic) ต้องสามารถทำซ้ำได้ (reproducible) และตรวจสอบได้ (checkable)
ความล้มเหลวในระบบของผมเกิดขึ้นเพราะผมเอาสิ่งที่ไม่ควรไปไว้ในที่นั่งสำหรับตัดสิน ผมปล่อยให้กระบวนการที่มีความไม่แน่นอนมาทำการตัดสินใจขั้นสุดท้าย
กฎนั้นง่ายมาก:
- ปล่อยให้ส่วนที่มีความไม่แน่นอนทำหน้าที่สำรวจ
- ปล่อยให้ส่วนที่กำหนดผลลัพธ์ได้แน่นอนทำหน้าที่ตัดสิน
อย่าพยายามทำให้ทั้งระบบมีความแน่นอน แต่จงทำให้แน่ใจว่า "ผู้ตัดสิน" ของคุณนั้นมั่นคง ผู้ตัดสินที่เป็นแบบ deterministic แต่ตัดสินผิดนั้นอันตรายกว่าผู้ตัดสินที่เป็นแบบ probabilistic เสียอีก เพราะผู้ตัดสินที่ผิดพลาดจะสร้างความผิดพลาดที่สม่ำเสมอ จนในที่สุดคุณจะเลิกตั้งคำถามกับมัน
ทุกเลเยอร์ที่สร้างความเชื่อมั่นให้คุณต้องได้รับการวัดผลก่อน และการวัดผลนั้นควรขึ้นอยู่กับบางสิ่งที่กำหนดผลลัพธ์ได้แน่นอนที่คุณสามารถพิสูจน์ได้ด้วยตาตนเอง
คุณขีดเส้นแบ่งระหว่างการนำเสนอและการตัดสินในระบบ AI ของคุณอย่างไร? และคุณยืนกรานที่จะใช้ความแน่นอน (determinism) ในจุดไหน?
Source: https://dev.to/josephyeo/we-stopped-trusting-models-then-we-stopped-trusting-our-own-numbers-1611
Optional learning community: https://t.me/GyaanSetuAi
