Nature અભ્યાસોમાં AI એજન્ટો ડોક્ટરોને ટક્કર આપી રહ્યા છે: MIRA અને AMIE ની કામગીરી

Nature માં પ્રકાશિત થયેલા નવા સંશોધનથી જાણવા મળે છે કે સ્વાયત્ત AI એજન્ટો હવે કૃત્રિમ તબીબી વાતાવરણમાં માનવ ક્લિનિશિયનોના સ્તર પર અથવા તેનાથી ઉપર કામ કરી રહ્યા છે. જોકે આ સફળતા નિદાનની ચોકસાઈમાં એક મોટો પરિવર્તન સૂચવે છે, પરંતુ નિષ્ણાતો ચેતવણી આપે છે કે જટિલ "scaffolding" પર વર્તમાન નિર્ભરતા વિકસતા મોડેલ આર્કિટેક્ચરના લાંબા ગાળાના ફાયદાઓને મર્યાદિત કરી શકે છે.

MIRA: સ્વાયત્ત ઇમરજન્સી રૂમ એજન્ટ

TUD Dresden અને Heidelberg University ના સંશોધકો દ્વારા વિકસિત, MIRA (Medical Intelligence for Reasoning and Action) એક વર્ચ્યુઅલ ઇલેક્ટ્રોનિક હેલ્થ રેકોર્ડની અંદર સ્વાયત્ત એજન્ટ તરીકે કાર્ય કરે છે. પ્રમાણભૂત LLMs થી વિપરીત, MIRA એક નિર્ણય લેવાનું એન્જિન તરીકે કાર્ય કરે છે જે અગિયાર વિશિષ્ટ સાધનોમાં 85,000 થી વધુ વિકલ્પોમાંથી પસંદગી કરી શકે છે.

MIMIC-IV ડેટાસેટમાંથી 500 વાસ્તવિક ઇમરજન્સી વિભાગના કિસ્સાઓ સામે MIRA નું પરીક્ષણ કરવાથી આશ્ચર્યજનક પરિણામો મળ્યા:

  • નિદાનની ચોકસાઈ: MIRA એ 88.9% સાચા નિદાનનો દર હાંસલ કર્યો.
  • સીધી સરખામણી: 311 કિસ્સાઓના સબસેટમાં, MIRA એ 87.8% સ્કોર કર્યો, જે અનુભવી નિષ્ણાતો (78.1%) અને રેસિડેન્ટ્સ તથા નિષ્ણાતોની મિશ્ર ટીમો (71.1%) કરતા નોંધપાત્ર રીતે વધુ છે.
  • ક્લિનિકલ શક્તિઓ: સિસ્ટમ ઉચ્ચ-તીવ્રતા ધરાવતા કિસ્સાઓમાં શ્રેષ્ઠ સાબિત થઈ, જેમાં એપેન્ડિસાઇટિસ માટે 98.6% અને પેનક્રિયાટાઇટિસ માટે 92.3% ચોકસાઈ જોવા મળી હતી.
  • સેફ્ટી પ્રોફાઇલ: બ્લાઇન્ડેડ રિવ્યુઅર્સે કોઈ જોખમી ડ્રગ ઇન્ટરેક્શન અથવા ખોટી ડોઝિંગ શોધી નથી, અને સિસ્ટમે હોસ્પિટલમાં દાખલ કરવાની જરૂર હોય તેવા દર્દીઓને ઓળખવામાં સંપૂર્ણ રેકોર્ડ હાંસલ કર્યો છે.

Google ની AMIE: લાંબા ગાળાની ક્લિનિકલ માર્ગદર્શિકામાં નિપુણતા

જ્યારે MIRA તીવ્ર તર્ક (acute reasoning) પર ધ્યાન કેન્દ્રિત કરે છે, ત્યારે Google ની AMIE (Articulate Medical Intelligence Explorer) લાંબા ગાળાની પ્રાથમિક સંભાળ માટે ડિઝાઇન કરવામાં આવી છે. AMIE ડ્યુઅલ-એજન્ટ આર્કિટેક્ચરનો ઉપયોગ કરે છે: દર્દી સાથે વાતચીત કરવા માટે એક કન્વર્સેશનલ એજન્ટ અને તબીબી માર્ગદર્શિકા જેમ કે UK ની NICE Guidance સામે કિસ્સાઓની ચકાસણી કરવા માટે એક બેકગ્રાઉન્ડ એજન્ટ.

અનેક મુલાકાતો ધરાવતા 100 કિસ્સાઓના અભ્યાસમાં, AMIE એ સારવારના નિર્ણયોમાં તબીબોની બરાબરી કરી અને માર્ગદર્શિકાના પાલનમાં તેમને વટાવી દીધા. સૌથી નોંધપાત્ર રીતે, AMIE ની સારવાર યોજનાઓને 95% કિસ્સાઓમાં યોગ્ય માનવામાં આવી હતી, જ્યારે માનવ તબીબો માટે આ માત્ર 72% હતી. AMIE એ RxQA બેન્ચમાર્ક પર પણ ડોક્ટરો કરતા વધુ સારું પ્રદર્શન કર્યું, જે લાયસન્સ પ્રાપ્ત ફાર્માસિસ્ટ દ્વારા પ્રમાણિત ફાર્માસ્યુટિકલ જ્ઞાનની કડક કસોટી છે.

"Scaffolding" ની દ્વિધા અને ભવિષ્યની મર્યાદાઓ

ઉચ્ચ પ્રદર્શન હોવા છતાં, અભ્યાસોમાંથી એક મહત્વપૂર્ણ તકનીકી સૂક્ષ્મતા સામે આવી છે. MIRA (GPT-4o અને o1-preview નો ઉપયોગ કરીને) અને AMIE (Gemini 1.5 Flash નો ઉપયોગ કરીને) બંને "scaffolding" પર ખૂબ નિર્ભર છે—જે મોડેલના તર્કને માર્ગદર્શન આપવા માટે રચાયેલ જટિલ બાહ્ય માળખાઓ છે.

પૂરક પ્રયોગોએ સંભવિત "aging" સમસ્યા સૂચવી છે: જ્યારે આ scaffolding જૂના અથવા નાના મોડેલ્સના પ્રદર્શનમાં નોંધપાત્ર વધારો કરે છે, ત્યારે પાયાના (foundational) મોડેલ્સ વધુ કુદરતી રીતે સક્ષમ બનતા જાય તેમ તેની જરૂરિયાત ઘટી શકે છે. આ પ્રશ્ન ઉભો કરે છે કે શું વર્તમાન સફળતા શ્રેષ્ઠ બુદ્ધિનું પરિણામ છે કે માત્ર શ્રેષ્ઠ પ્રોમ્પ્ટ એન્જિનિયરિંગ અને આર્કિટેક્ચરલ "crutches" (ટેકો) નું પરિણામ છે.

વધુમાં, સંશોધકો ચેતવણી આપે છે કે આ પરિણામો સિમ્યુલેટેડ, માળખાગત ડેટામાંથી મેળવવામાં આવ્યા છે. પ્રોફેસર કેથરિન પોપ જેવા નિષ્ણાતો નોંધે છે કે આ વાતાવરણમાં વાસ્તવિક હેલ્થકેરના "અસ્તવ્યસ્ત, જટિલ, માનવ વિશ્વ"નો અભાવ છે, અને એ જોખમ છે કે મોડેલ્સ તાલીમ દરમિયાન MIMIC-IV ડેટાસેટના ભાગો પહેલેથી જ જોઈ ચૂક્યા હોઈ શકે છે.

મુખ્ય તારણો

  • સિમ્યુલેશનમાં ક્લિનિકલ શ્રેષ્ઠતા: નિયંત્રિત, સિમ્યુલેટેડ તબીબી વાતાવરણમાં AI એજન્ટો MIRA અને AMIE એ માનવ નિષ્ણાતો કરતા વધુ નિદાન ચોકસાઈ અને માર્ગદર્શિકા પાલન દર્શાવ્યું હતું.
  • સુરક્ષા અને ચોકસાઈ: બંને પ્રણાલીઓએ દવા વ્યવસ્થાપન અને હોસ્પિટલાઇઝેશન ઓળખવામાં અસાધારણ વિશ્વસનીયતા દર્શાવી હતી, જે યોજનાની સંપૂર્ણતામાં માનવો કરતા વધુ સારું પ્રદર્શન કરે છે.
  • Scaffolding પરિબળ: વર્તમાન સફળતાનો મોટો હિસ્સો જટિલ મલ્ટી-એજન્ટ આર્કિટેક્ચર પર આધારિત છે જે પાયાના LLMs સતત વિકસિત થતા જાય તેમ બિનજરૂરી બની શકે છે.