เอเจนต์ AI เทียบชั้นแพทย์ในการศึกษาของ Nature: ประสิทธิภาพของ MIRA และ AMIE
งานวิจัยใหม่ที่ตีพิมพ์ใน Nature เผยให้เห็นว่าเอเจนต์ AI แบบอัตโนมัติ (autonomous AI agents) กำลังทำผลงานได้ในระดับเดียวกับหรือสูงกว่าแพทย์ในสภาพแวดล้อมทางการแพทย์จำลอง แม้ว่าความก้าวหน้าเหล่านี้จะส่งสัญญาณถึงการเปลี่ยนแปลงกระบวนทัศน์ (paradigm shift) ในด้านความแม่นยำของการวินิจฉัย แต่ผู้เชี่ยวชาญเตือนว่าการพึ่งพา "scaffolding" (โครงสร้างเสริม) ที่ซับซ้อนในปัจจุบัน อาจจำกัดประโยชน์ในระยะยาวของสถาปัตยกรรมโมเดลที่กำลังพัฒนา
MIRA: เอเจนต์ห้องฉุกเฉินแบบอัตโนมัติ
MIRA (Medical Intelligence for Reasoning and Action) พัฒนาโดยนักวิจัยจาก TUD Dresden และ Heidelberg University โดยทำงานเป็นเอเจนต์อัตโนมัติภายในระบบบันทึกสุขภาพอิเล็กทรอนิกส์เสมือนจริง MIRA แตกต่างจาก LLM มาตรฐานตรงที่ทำหน้าที่เป็นเครื่องยนต์ตัดสินใจที่สามารถเลือกจากตัวเลือกกว่า 85,000 รายการ ผ่านเครื่องมือเฉพาะทาง 11 ชนิด
การทดสอบ MIRA กับกรณีศึกษาจริงในแผนกฉุกเฉิน 500 กรณีจากชุดข้อมูล MIMIC-IV ให้ผลลัพธ์ที่น่าประทับใจ:
- ความแม่นยำในการวินิจฉัย: MIRA ทำอัตราการวินิจฉัยถูกต้องได้ถึง 88.9%
- การเปรียบเทียบแบบตัวต่อตัว: ในกลุ่มตัวอย่าง 311 กรณี MIRA ทำคะแนนได้ 87.8% ซึ่งสูงกว่าแพทย์เฉพาะทางที่มีประสบการณ์ (78.1%) และทีมผสมระหว่างแพทย์ประจำบ้านและแพทย์เฉพาะทาง (71.1%) อย่างมีนัยสำคัญ
- จุดแข็งทางคลินิก: ระบบทำผลงานได้ดีเยี่ยมในสถานการณ์ที่มีความรุนแรงสูง (high-acuity scenarios) โดยมีความแม่นยำถึง 98.6% สำหรับโรคไส้ติ่งอักเสบ และ 92.3% สำหรับโรคตับอ่อนอักเสบ
- ความปลอดภัย: ผู้ประเมินแบบไม่ทราบข้อมูล (blinded reviewers) ไม่พบปฏิกิริยาระหว่างยาที่อันตรายหรือการให้ยาในปริมาณที่ไม่ถูกต้อง และระบบสามารถระบุผู้ป่วยที่ต้องเข้ารับการรักษาในโรงพยาบาลได้อย่างแม่นยำสมบูรณ์แบบ
AMIE ของ Google: ความเชี่ยวชาญด้านแนวทางปฏิบัติทางคลินิกในระยะยาว
ในขณะที่ MIRA มุ่งเน้นไปที่การใช้เหตุผลในกรณีเฉียบพลัน AMIE (Articulate Medical Intelligence Explorer) ของ Google ถูกออกแบบมาเพื่อการดูแลปฐมภูมิในระยะยาว (longitudinal primary care) AMIE ใช้สถาปัตยกรรมแบบเอเจนต์คู่ (dual-agent architecture) ได้แก่ เอเจนต์สนทนาสำหรับการปฏิสัมพันธ์กับผู้ป่วย และเอเจนต์เบื้องหลังที่ทำหน้าที่ตรวจสอบกรณีศึกษาเทียบกับแนวทางปฏิบัติทางการแพทย์ เช่น NICE Guidance ของสหราชอาณาจักร
ในการศึกษาที่ครอบคลุม 100 กรณีซึ่งมีการติดตามผลหลายครั้ง AMIE ทำผลงานได้เทียบเท่าแพทย์ในการตัดสินใจรักษา และทำได้เหนือกว่าในด้านการปฏิบัติตามแนวทางปฏิบัติ (guideline adherence) ที่โดดเด่นที่สุดคือ แผนการรักษาของ AMIE ได้รับการประเมินว่าเหมาะสมถึง 95% ของกรณีทั้งหมด เมื่อเทียบกับแพทย์ที่เป็นมนุษย์ซึ่งอยู่ที่ 72% นอกจากนี้ AMIE ยังทำคะแนนได้เหนือกว่าแพทย์ในการทดสอบ RxQA ซึ่งเป็นการทดสอบความรู้ด้านเภสัชกรรมที่เข้มงวดและได้รับการตรวจสอบโดยเภสัชกรที่มีใบอนุญาต
ความย้อนแย้งของ "Scaffolding" และข้อจำกัดในอนาคต
แม้จะมีประสิทธิภาพสูง แต่จากการศึกษาพบประเด็นทางเทคนิคที่สำคัญประการหนึ่ง ทั้ง MIRA (ซึ่งใช้ GPT-4o และ o1-preview) และ AMIE (ซึ่งใช้ Gemini 1.5 Flash) ต่างต้องพึ่งพา "scaffolding" อย่างมาก ซึ่งเป็นเฟรมเวิร์กภายนอกที่มีความซับซ้อนซึ่งออกแบบมาเพื่อช่วยนำทางการใช้เหตุผลของโมเดล
การทดลองเพิ่มเติมชี้ให้เห็นถึงปัญหา "ความล้าสมัย" (aging) ที่อาจเกิดขึ้น กล่าวคือ แม้ว่า scaffolding นี้จะช่วยเพิ่มประสิทธิภาพของโมเดลรุ่นเก่าหรือโมเดลที่มีขนาดเล็กได้อย่างมีนัยสำคัญ แต่ความจำเป็นของมันอาจลดลงเมื่อโมเดลพื้นฐาน (foundational models) มีความสามารถในตัวสูงขึ้น สิ่งนี้ทำให้เกิดคำถามว่าความสำเร็จในปัจจุบันเป็นผลมาจากสติปัญญาที่เหนือกว่า หรือเป็นเพียงผลจากการทำ prompt engineering และการใช้ "อุปกรณ์ช่วยพยุง" (crutches) ทางสถาปัตยกรรมที่ยอดเยี่ยมเท่านั้น
นอกจากนี้ นักวิจัยยังเตือนว่าผลลัพธ์เหล่านี้ได้มาจากข้อมูลที่มีโครงสร้างและเป็นการจำลองขึ้น ผู้เชี่ยวชาญอย่างศาสตราจารย์ Catherine Pope ตั้งข้อสังเกตว่าสภาพแวดล้อมเหล่านี้ขาด "ความวุ่นวายและความซับซ้อนของโลกมนุษย์" ในการดูแลสุขภาพจริง และมีความเสี่ยงที่โมเดลอาจเคยเห็นส่วนหนึ่งของชุดข้อมูล MIMIC-IV มาแล้วในระหว่างการฝึกฝน
สรุปประเด็นสำคัญ
- ความเหนือกว่าทางคลินิกในการจำลอง: เอเจนต์ AI อย่าง MIRA และ AMIE แสดงให้เห็นถึงความแม่นยำในการวินิจฉัยและการปฏิบัติตามแนวทางเวชปฏิบัติที่สูงกว่าผู้เชี่ยวชาญที่เป็นมนุษย์ในสภาพแวดล้อมทางการแพทย์จำลองที่มีการควบคุม
- ความปลอดภัยและความแม่นยำ: ทั้งสองระบบแสดงให้เห็นถึงความน่าเชื่อถือที่ยอดเยี่ยมในการจัดการยาและการระบุความจำเป็นในการเข้ารับการรักษาในโรงพยาบาล โดยทำผลงานได้ดีกว่ามนุษย์ในด้านความครบถ้วนของแผนการรักษา
- ปัจจัยด้าน Scaffolding: ความสำเร็จส่วนใหญ่ในปัจจุบันขึ้นอยู่กับสถาปัตยกรรมแบบ multi-agent ที่ซับซ้อน ซึ่งอาจกลายเป็นสิ่งที่ไม่จำเป็นเมื่อ LLMs พื้นฐานมีการพัฒนาอย่างต่อเนื่อง