เราเลิกเชื่อใจโมเดล แล้วเราก็เลิกเชื่อใจตัวเลขของเราเองด้วย

ผมเลิกวิ่งไล่ตามโมเดล AI ที่ดีกว่าเดิม ผมเคยคิดว่าโมเดลที่เก่งกว่าจะช่วยแก้ปัญหาในระบบของผมได้ แต่มันไม่ใช่ ปัญหาไม่ได้อยู่ที่โมเดล แต่มันอยู่ที่ระบบต่างหาก

จากนั้นผมก็ตระหนักถึงสิ่งที่แย่ยิ่งกว่า นั่นคือผมไม่สามารถเชื่อใจการวัดผลของตัวเองได้เลยเช่นกัน

ผมพบความล้มเหลวใน 3 รูปแบบที่แตกต่างกัน:

  • ชุดทดสอบ (test suite) ที่ผ่านการทดสอบ ทั้งที่กำลังวัดผลในสภาพแวดล้อมที่ผิด
  • ระบบคัดกรอง (gate) ที่ขัดขวางการทำงาน แต่กลับให้สถิติที่ผิดพลาด
  • เอเจนต์ (agent) ที่รายงานจำนวนผิดพลาด

ความล้มเหลวแต่ละครั้งดูเหมือนจะเป็นความสำเร็จ จนกระทั่งผมพิจารณาให้ดีขึ้น เครื่องมือสำหรับตรวจสอบความถูกต้อง (verification) กำลังหลอกผมอยู่

สัญชาตญาณแรกของผมคือการกำจัดความไม่แน่นอนทั้งหมด ผมต้องการลบองค์ประกอบที่เป็นความน่าจะเป็น (probabilistic) ออกไปให้หมด ผมต้องการให้ทุกอย่างเป็นแบบกำหนดผลลัพธ์ได้แน่นอน (deterministic)

นั่นคือความผิดพลาด

หากคุณกำจัดความไม่แน่นอนออกไปทั้งหมด คุณก็กำลังทำลายคุณค่าของ AI เพราะ AI มีไว้เพื่อนำเสนอไอเดียและสำรวจแนวทางการแก้ไข คุณไม่สามารถได้รับสิ่งนั้นจากกฎที่ตายตัวได้

ทางออกไม่ใช่การสั่งห้ามความไม่แน่นอน แต่คือการจัดวางมันให้ถูกที่

ระบบจำเป็นต้องมี "ที่นั่ง" สองรูปแบบที่แตกต่างกัน:

  1. ที่นั่งสำหรับนำเสนอ (The Proposing Seat) ที่นั่งนี้มีหน้าที่สำรวจและเสนอแนะ จำเป็นต้องมีความไม่แน่นอน (nondeterminism) หากโมเดลเสนอแนวทางแก้ไขที่ผิด ต้นทุนที่เสียไปก็ยังต่ำ เพราะมันยังไม่ได้ตัดสินใจอะไรลงไป

  2. ที่นั่งสำหรับตัดสิน (The Judging Seat) ที่นั่งนี้มีหน้าที่ตัดสินว่าการทดสอบผ่านหรือไม่ หรือเป็นไปตามกฎที่กำหนดไว้หรือไม่ ที่นั่งนี้ต้องเป็นแบบกำหนดผลลัพธ์ได้แน่นอน (deterministic) ต้องสามารถทำซ้ำได้ (reproducible) และตรวจสอบได้ (checkable)

ความล้มเหลวในระบบของผมเกิดขึ้นเพราะผมเอาสิ่งที่ไม่ควรไปไว้ในที่นั่งสำหรับตัดสิน ผมปล่อยให้กระบวนการที่มีความไม่แน่นอนมาทำการตัดสินใจขั้นสุดท้าย

กฎนั้นง่ายมาก:

  • ปล่อยให้ส่วนที่มีความไม่แน่นอนทำหน้าที่สำรวจ
  • ปล่อยให้ส่วนที่กำหนดผลลัพธ์ได้แน่นอนทำหน้าที่ตัดสิน

อย่าพยายามทำให้ทั้งระบบมีความแน่นอน แต่จงทำให้แน่ใจว่า "ผู้ตัดสิน" ของคุณนั้นมั่นคง ผู้ตัดสินที่เป็นแบบ deterministic แต่ตัดสินผิดนั้นอันตรายกว่าผู้ตัดสินที่เป็นแบบ probabilistic เสียอีก เพราะผู้ตัดสินที่ผิดพลาดจะสร้างความผิดพลาดที่สม่ำเสมอ จนในที่สุดคุณจะเลิกตั้งคำถามกับมัน

ทุกเลเยอร์ที่สร้างความเชื่อมั่นให้คุณต้องได้รับการวัดผลก่อน และการวัดผลนั้นควรขึ้นอยู่กับบางสิ่งที่กำหนดผลลัพธ์ได้แน่นอนที่คุณสามารถพิสูจน์ได้ด้วยตาตนเอง

คุณขีดเส้นแบ่งระหว่างการนำเสนอและการตัดสินในระบบ AI ของคุณอย่างไร? และคุณยืนกรานที่จะใช้ความแน่นอน (determinism) ในจุดไหน?

Source: https://dev.to/josephyeo/we-stopped-trusting-models-then-we-stopped-trusting-our-own-numbers-1611

Optional learning community: https://t.me/GyaanSetuAi