Agen AI Menyaingi Dokter dalam Studi Nature: Performa MIRA dan AMIE

Penelitian baru yang diterbitkan dalam Nature mengungkapkan bahwa agen AI otonom kini berkinerja setara atau bahkan melampaui tingkat klinisi manusia dalam lingkungan medis simulasi. Meskipun terobosan ini menandakan pergeseran paradigma dalam akurasi diagnostik, para ahli memperingatkan bahwa ketergantungan saat ini pada "scaffolding" yang kompleks dapat membatasi manfaat jangka panjang dari arsitektur model yang terus berkembang.

MIRA: Agen Unit Gawat Darurat Otonom

Dikembangkan oleh para peneliti di TUD Dresden dan Universitas Heidelberg, MIRA (Medical Intelligence for Reasoning and Action) beroperasi sebagai agen otonom di dalam rekam medis elektronik virtual. Berbeda dengan LLM standar, MIRA berfungsi sebagai mesin pengambil keputusan yang dapat memilih dari lebih dari 85.000 opsi melalui sebelas alat khusus.

Pengujian MIRA terhadap 500 kasus unit gawat darurat nyata dari dataset MIMIC-IV memberikan hasil yang mengesankan:

  • Akurasi Diagnostik: MIRA mencapai tingkat diagnosis yang benar sebesar 88,9%.
  • Perbandingan Head-to-Head: Dalam subset dari 311 kasus, MIRA mencetak skor 87,8%, secara signifikan mengungguli spesialis berpengalaman (78,1%) dan tim campuran antara residen dan spesialis (71,1%).
  • Kekuatan Klinis: Sistem ini unggul dalam skenario dengan akuitas tinggi, mencapai akurasi 98,6% untuk apendisitis dan 92,3% untuk pankreatitis.
  • Profil Keamanan: Peninjau buta (blinded reviewers) tidak menemukan interaksi obat yang berbahaya atau dosis yang salah, dan sistem mencapai rekor sempurna dalam mengidentifikasi pasien yang memerlukan rawat inap.

AMIE milik Google: Menguasai Panduan Klinis Jangka Panjang

Sementara MIRA berfokus pada penalaran akut, AMIE milik Google (Articulate Medical Intelligence Explorer) dirancang untuk perawatan primer longitudinal. AMIE menggunakan arsitektur agen ganda: agen percakapan untuk interaksi pasien dan agen latar belakang yang melakukan referensi silang kasus terhadap panduan medis seperti Panduan NICE dari Inggris.

Dalam sebuah studi yang melibatkan 100 kasus yang mencakup beberapa kunjungan, AMIE menyamai dokter dalam keputusan pengobatan dan melampaui mereka dalam kepatuhan terhadap panduan. Yang paling menonjol, rencana pengobatan AMIE dinilai tepat dalam 95% kasus, dibandingkan dengan hanya 72% untuk dokter manusia. AMIE juga mengungguli dokter pada tolok ukur RxQA, sebuah tes pengetahuan farmasi yang ketat yang diverifikasi oleh apoteker berlisensi.

Dilema "Scaffolding" dan Batasan di Masa Depan

Terlepas dari performanya yang tinggi, sebuah nuansa teknis yang kritis muncul dari studi tersebut. Baik MIRA (menggunakan GPT-4o dan o1-preview) maupun AMIE (menggunakan Gemini 1.5 Flash) sangat bergantung pada "scaffolding"—kerangka kerja eksternal kompleks yang dirancang untuk memandu penalaran model.

Eksperimen tambahan menunjukkan adanya potensi masalah "penuaan": meskipun scaffolding ini secara signifikan meningkatkan performa model yang lebih lama atau lebih kecil, kebutuhannya mungkin akan berkurang seiring dengan semakin mampunya model dasar secara inheren. Hal ini menimbulkan pertanyaan apakah keberhasilan saat ini merupakan hasil dari kecerdasan yang unggul atau sekadar rekayasa prompt dan "penopang" arsitektural yang unggul.

Selain itu, para peneliti memperingatkan bahwa hasil ini berasal dari data terstruktur yang disimulasikan. Pakar seperti Profesor Catherine Pope mencatat bahwa lingkungan ini kurang memiliki "dunia manusia yang berantakan dan kompleks" dari layanan kesehatan yang sebenarnya, dan terdapat risiko bahwa model-model tersebut mungkin telah melihat bagian dari dataset MIMIC-IV selama pelatihan.

Poin-Poin Penting

  • Keunggulan Klinis dalam Simulasi: Agen AI MIRA dan AMIE menunjukkan akurasi diagnostik dan kepatuhan pedoman yang lebih tinggi daripada spesialis manusia dalam lingkungan medis simulasi yang terkendali.
  • Keamanan dan Presisi: Kedua sistem menunjukkan keandalan yang luar biasa dalam manajemen pengobatan dan identifikasi rawat inap, mengungguli manusia dalam kelengkapan rencana.
  • Faktor Scaffolding: Sebagian besar keberhasilan saat ini bergantung pada arsitektur multi-agen yang kompleks yang mungkin menjadi redundan seiring dengan terus berkembangnya LLM dasar.