नेचर स्टडीज में डॉक्टरों को टक्कर दे रहे AI एजेंट्स: MIRA और AMIE का प्रदर्शन

Nature में प्रकाशित नए शोध से पता चलता है कि स्वायत्त AI एजेंट्स अब सिम्युलेटेड मेडिकल वातावरण में मानव चिकित्सकों के स्तर पर या उससे ऊपर प्रदर्शन कर रहे हैं। हालांकि ये सफलताएं नैदानिक सटीकता (diagnostic accuracy) में एक बड़े बदलाव का संकेत देती हैं, लेकिन विशेषज्ञों ने चेतावनी दी है कि जटिल "scaffolding" पर वर्तमान निर्भरता विकसित होते मॉडल आर्किटेक्चर के दीर्घकालिक लाभों को सीमित कर सकती है।

MIRA: स्वायत्त इमरजेंसी रूम एजेंट

TUD Dresden और Heidelberg University के शोधकर्ताओं द्वारा विकसित, MIRA (Medical Intelligence for Reasoning and Action) एक वर्चुअल इलेक्ट्रॉनिक हेल्थ रिकॉर्ड के भीतर एक स्वायत्त एजेंट के रूप में कार्य करता है। मानक LLMs के विपरीत, MIRA एक निर्णय लेने वाले इंजन के रूप में कार्य करता है जो ग्यारह विशिष्ट उपकरणों (specialized tools) के माध्यम से 85,000 से अधिक विकल्पों में से चुन सकता है।

MIMIC-IV डेटासेट से 500 वास्तविक इमरजेंसी विभाग के मामलों के विरुद्ध MIRA का परीक्षण करने पर प्रभावशाली परिणाम प्राप्त हुए:

  • नैदानिक सटीकता (Diagnostic Accuracy): MIRA ने 88.9% सही निदान दर हासिल की।
  • आमने-सामने की तुलना (Head-to-Head Comparison): 311 मामलों के एक उपसमूह (subset) में, MIRA ने 87.8% स्कोर किया, जो अनुभवी विशेषज्ञों (78.1%) और रेजिडेंट्स एवं विशेषज्ञों की मिश्रित टीमों (71.1%) की तुलना में काफी बेहतर था।
  • नैदानिक क्षमताएं (Clinical Strengths): यह सिस्टम उच्च-तीव्रता (high-acuity) वाले परिदृश्यों में उत्कृष्ट रहा, जिसमें अपेंडिसाइटिस के लिए 98.6% और पैंक्रियाटाइटिस के लिए 92.3% सटीकता प्राप्त हुई।
  • सुरक्षा प्रोफाइल (Safety Profile): ब्लाइंड रिव्यूअर्स को कोई भी खतरनाक ड्रग इंटरैक्शन या गलत खुराक नहीं मिली, और सिस्टम ने अस्पताल में भर्ती होने की आवश्यकता वाले रोगियों की पहचान करने में शत-प्रतिशत रिकॉर्ड हासिल किया।

Google का AMIE: दीर्घकालिक नैदानिक दिशानिर्देशों में महारत

जहाँ MIRA तीव्र तर्क (acute reasoning) पर ध्यान केंद्रित करता है, वहीं Google का AMIE (Articulate Medical Intelligence Explorer) दीर्घकालिक प्राथमिक देखभाल (longitudinal primary care) के लिए डिज़ाइन किया गया है। AMIE एक डुअल-एजेंट आर्किटेक्चर का उपयोग करता है: रोगी के साथ बातचीत के लिए एक कन्वर्सेशनल एजेंट और एक बैकग्राउंड एजेंट जो चिकित्सा दिशानिर्देशों जैसे कि यूके के NICE Guidance के विरुद्ध मामलों का क्रॉस-रेफरेंस करता है।

कई दौर की मुलाकातों (multiple visits) वाले 100 मामलों के एक अध्ययन में, AMIE ने उपचार के निर्णयों में चिकित्सकों के बराबर प्रदर्शन किया और दिशानिर्देशों के पालन में उनसे आगे निकल गया। सबसे उल्लेखनीय बात यह है कि AMIE की उपचार योजनाओं को 95% मामलों में उपयुक्त माना गया, जबकि मानव चिकित्सकों के लिए यह आंकड़ा केवल 72% था। AMIE ने RxQA बेंचमार्क पर भी डॉक्टरों को पीछे छोड़ दिया, जो लाइसेंस प्राप्त फार्मासिस्टों द्वारा सत्यापित फार्मास्युटिकल ज्ञान का एक कठोर परीक्षण है।

"Scaffolding" की दुविधा और भविष्य की सीमाएं

उच्च प्रदर्शन के बावजूद, अध्ययनों से एक महत्वपूर्ण तकनीकी बारीकी सामने आई है। MIRA (GPT-4o और o1-preview का उपयोग करते हुए) और AMIE (Gemini 1.5 Flash का उपयोग करते हुए) दोनों ही "scaffolding" पर बहुत अधिक निर्भर हैं—जो मॉडल की तर्क प्रक्रिया (reasoning) को निर्देशित करने के लिए डिज़ाइन किए गए जटिल बाहरी ढांचे हैं।

पूरक प्रयोगों ने एक संभावित "aging" समस्या का संकेत दिया है: जबकि यह scaffolding पुराने या छोटे मॉडलों के प्रदर्शन को काफी बढ़ा देता है, जैसे-जैसे foundational मॉडल स्वाभाविक रूप से अधिक सक्षम होते जाएंगे, इसकी आवश्यकता कम हो सकती है। यह सवाल उठाता है कि क्या वर्तमान सफलता बेहतर बुद्धिमत्ता का परिणाम है या केवल बेहतर प्रॉम्प्ट इंजीनियरिंग और आर्किटेक्चरल "crutches" (सहारे) का।

इसके अलावा, शोधकर्ता आगाह करते हैं कि ये परिणाम सिम्युलेटेड (simulated), संरचित डेटा से प्राप्त हुए हैं। प्रोफेसर कैथरीन पोप जैसे विशेषज्ञों का कहना है कि इन वातावरणों में वास्तविक स्वास्थ्य सेवा की "अव्यवस्थित, जटिल, मानवीय दुनिया" का अभाव है, और यह जोखिम बना हुआ है कि मॉडलों ने प्रशिक्षण के दौरान MIMIC-IV डेटासेट के कुछ हिस्सों को पहले ही देख लिया होगा।

मुख्य निष्कर्ष

  • सिमुलेशन में नैदानिक श्रेष्ठता: नियंत्रित, सिम्युलेटेड चिकित्सा वातावरण में AI एजेंटों MIRA और AMIE ने मानव विशेषज्ञों की तुलना में उच्च नैदानिक सटीकता और दिशानिर्देशों के पालन का प्रदर्शन किया।
  • सुरक्षा और सटीकता: दोनों प्रणालियों ने दवा प्रबंधन और अस्पताल में भर्ती होने की पहचान करने में असाधारण विश्वसनीयता दिखाई, और योजना की पूर्णता के मामले में मनुष्यों से बेहतर प्रदर्शन किया।
  • स्कैफोल्डिंग कारक: वर्तमान सफलता का एक बड़ा हिस्सा जटिल मल्टी-एजेंट आर्किटेक्चर पर निर्भर है, जो foundational LLMs के निरंतर विकसित होने के साथ अनावश्यक हो सकते हैं।