नेचर स्टडीजमध्ये AI एजंट्स डॉक्टरांना टक्कर देत आहेत: MIRA आणि AMIE ची कामगिरी

'नेचर' (Nature) मध्ये प्रकाशित झालेल्या नवीन संशोधनानुसार, सिम्युलेटेड वैद्यकीय वातावरणात स्वायत्त AI एजंट्स आता मानवी डॉक्टरांच्या पातळीवर किंवा त्यापेक्षाही वरच्या पातळीवर कामगिरी करत आहेत. हे महत्त्वपूर्ण टप्पे निदानाच्या अचूकतेमध्ये एक मोठा बदल दर्शवत असले तरी, सध्याच्या जटिल "scaffolding" वरील अवलंबनामुळे विकसित होत असलेल्या मॉडेल आर्किटेक्चरचे दीर्घकालीन फायदे मर्यादित होऊ शकतात, असा इशारा तज्ज्ञांनी दिला आहे.

MIRA: स्वायत्त इमर्जन्सी रूम एजंट

TUD Dresden आणि Heidelberg University च्या संशोधकांनी विकसित केलेले MIRA (Medical Intelligence for Reasoning and Action) एका व्हर्च्युअल इलेक्ट्रॉनिक हेल्थ रेकॉर्डमध्ये स्वायत्त एजंट म्हणून कार्य करते. मानक LLMs च्या उलट, MIRA एका निर्णय घेणाऱ्या इंजिनप्रमाणे काम करते, जे अकरा विशेष साधनांमधील (specialized tools) ८५,००० हून अधिक पर्यायांपैकी निवड करू शकते.

MIMIC-IV डेटासेटमधील ५०० वास्तविक इमर्जन्सी डिपार्टमेंटच्या प्रकरणांवर MIRA ची चाचणी घेतल्यावर प्रभावी निकाल मिळाले:

  • निदान अचूकता (Diagnostic Accuracy): MIRA ने ८८.९% अचूक निदानाचा दर गाठला.
  • थेट तुलना (Head-to-Head Comparison): ३११ प्रकरणांच्या उपसमूहात, MIRA ने ८७.८% गुण मिळवले, जे अनुभवी तज्ज्ञ (७८.१%) आणि रेसिडेंट्स व तज्ज्ञांच्या मिश्र टीम्सच्या (७१.१%) तुलनेत लक्षणीयरीत्या जास्त होते.
  • वैद्यकीय सामर्थ्य (Clinical Strengths): ही प्रणाली उच्च-गंभीरता (high-acuity) असलेल्या परिस्थितीत उत्कृष्ट ठरली, ज्यामध्ये अपेंडिसायटिससाठी ९८.६% आणि पॅन्क्रियाटायटिससाठी ९२.३% अचूकता प्राप्त झाली.
  • सुरक्षा प्रोफाइल (Safety Profile): अंध (blinded) परीक्षकांना कोणतीही धोकादायक औषध परस्परक्रिया (drug interactions) किंवा चुकीचे डोस आढळले नाहीत आणि रुग्णालयात दाखल करण्याची गरज असलेल्या रुग्णांची ओळख पटवण्यात या प्रणालीने उत्तम कामगिरी केली.

Google चे AMIE: दीर्घकालीन क्लिनिकल मार्गदर्शक तत्त्वांमध्ये नैपुण्य

MIRA तीव्र तर्कशक्तीवर (acute reasoning) लक्ष केंद्रित करते, तर Google चे AMIE (Articulate Medical Intelligence Explorer) हे दीर्घकालीन प्राथमिक काळजीसाठी (longitudinal primary care) डिझाइन केलेले आहे. AMIE द्वैत-एजंट आर्किटेक्चरचा वापर करते: रुग्णांशी संवाद साधण्यासाठी एक conversational agent आणि वैद्यकीय मार्गदर्शक तत्त्वांच्या (उदा. UK चे NICE Guidance) आधारे प्रकरणांची पडताळणी करण्यासाठी एक background agent.

अनेक भेटींचा (multiple visits) समावेश असलेल्या १०० प्रकरणांच्या अभ्यासात, AMIE ने उपचारांच्या निर्णयांमध्ये डॉक्टरांच्या बरोबरीने कामगिरी केली आणि मार्गदर्शक तत्त्वांच्या पालनामध्ये (guideline adherence) त्यांच्या पुढे गेले. विशेषतः, मानवी डॉक्टरांच्या केवळ ७२% तुलनेत, AMIE च्या उपचार योजना ९५% प्रकरणांमध्ये योग्य असल्याचे मानले गेले. AMIE ने RxQA बेंचमार्कवर देखील डॉक्टरांना मागे टाकले, जो परवानाधारक फार्मासिस्टद्वारे सत्यापित औषधनिर्माण ज्ञानाचा एक कडक चाचणीचा प्रकार आहे.

"Scaffolding" चा पेच आणि भविष्यातील मर्यादा

उच्च कामगिरी असूनही, अभ्यासातून एक महत्त्वाचा तांत्रिक बारकावा समोर आला आहे. MIRA (GPT-4o आणि o1-preview वापरून) आणि AMIE (Gemini 1.5 Flash वापरून) हे दोन्ही 'scaffolding'—म्हणजेच मॉडेलच्या तर्कशक्तीला मार्गदर्शन करण्यासाठी तयार केलेली जटिल बाह्य संरचना—यावर मोठ्या प्रमाणावर अवलंबून आहेत.

पूरक प्रयोगांनी संभाव्य 'aging' समस्येचे संकेत दिले आहेत: हे scaffolding जुन्या किंवा लहान मॉडेल्सची कामगिरी लक्षणीयरीत्या वाढवत असले, तरी मूलभूत मॉडेल्स अधिक नैसर्गिकरित्या सक्षम होत असताना त्याची गरज कमी होऊ शकते. यामुळे सध्याचे यश हे उत्कृष्ट बुद्धिमत्तेचे फळ आहे की केवळ उत्कृष्ट प्रॉम्प्ट इंजिनीअरिंग आणि आर्किटेक्चरल 'crutches' (आधार) आहे, याबद्दल प्रश्न निर्माण होतात.

शिवाय, संशोधकांनी सावध केले आहे की हे निकाल सिम्युलेटेड (simulated) आणि संरचित डेटावर आधारित आहेत. प्रोफेसर कॅथरीन पोप यांसारख्या तज्ज्ञांच्या मते, या वातावरणात प्रत्यक्ष आरोग्यसेवेतील 'अस्ताव्यस्त, जटिल आणि मानवी जगाचा' अभाव आहे, आणि मॉडेल्सनी प्रशिक्षणादरम्यान MIMIC-IV डेटासेटचा काही भाग आधीच पाहिलेला असण्याची जोखीम आहे.

मुख्य निष्कर्ष

  • सिम्युलेशनमधील क्लिनिकल श्रेष्ठत्व: नियंत्रित, सिम्युलेटेड वैद्यकीय वातावरणात AI एजंट्स MIRA आणि AMIE ने मानवी तज्ज्ञांपेक्षा अधिक निदानात्मक अचूकता आणि मार्गदर्शक तत्त्वांचे पालन प्रदर्शित केले.
  • सुरक्षा आणि अचूकता: दोन्ही प्रणालींनी औषध व्यवस्थापन आणि रुग्णालयात दाखल करण्याच्या ओळखीमध्ये विलक्षण विश्वासार्हता दर्शवली, आणि योजनेच्या पूर्णतेमध्ये मानवापेक्षा सरस कामगिरी केली.
  • स्कॅफोल्डिंग घटक: सध्याचे यश मोठ्या प्रमाणावर जटिल मल्टी-एजंट आर्किटेक्चरवर अवलंबून आहे, जे मूलभूत LLMs विकसित होत असताना अनावश्यक ठरू शकते.