Nature പഠനങ്ങളിൽ ഡോക്ടർമാരെ വെല്ലുന്ന AI ഏജന്റുകൾ: MIRA, AMIE എന്നിവയുടെ പ്രകടനം

Nature പ്രസിദ്ധീകരിച്ച പുതിയ ഗവേഷണം വെളിപ്പെടുത്തുന്നത്, കൃത്രിമമായി നിർമ്മിച്ച മെഡിക്കൽ സാഹചര്യങ്ങളിൽ സ്വയം പ്രവർത്തിക്കുന്ന AI ഏജന്റുകൾ ഇപ്പോൾ മനുഷ്യരായ ക്ലിനിക്കൽ വിദഗ്ധരുടെ നിലവാരത്തോ അതിനു മുകളിലോ പ്രവർത്തിക്കുന്നു എന്നാണ്. ഈ മുന്നേറ്റങ്ങൾ രോഗനിർണ്ണയ കൃത്യതയിൽ വലിയൊരു മാറ്റത്തിന് സൂചന നൽകുന്നുണ്ടെങ്കിലും, സങ്കീർണ്ണമായ "scaffolding" രീതിയിലുള്ള നിലവിലെ ആശ്രയത്വം ഭാവിയിലെ മോഡൽ ആർക്കിടെക്ചറുകളുടെ ഗുണഫലങ്ങളെ പരിമിതപ്പെടുത്തിയേക്കാം എന്ന് വിദഗ്ധർ മുന്നറിയിപ്പ് നൽകുന്നു.

MIRA: സ്വയം പ്രവർത്തിക്കുന്ന എമർജൻസി റൂം ഏജന്റ്

TUD Dresden, Heidelberg University എന്നിവയിലെ ഗവേഷകർ വികസിപ്പിച്ചെടുത്ത MIRA (Medical Intelligence for Reasoning and Action), ഒരു വെർച്വൽ ഇലക്ട്രോണിക് ഹെൽത്ത് റെക്കോർഡിനുള്ളിൽ സ്വയം പ്രവർത്തിക്കുന്ന ഒരു ഏജന്റായി പ്രവർത്തിക്കുന്നു. സാധാരണ LLM-കളിൽ നിന്ന് വ്യത്യസ്തമായി, പതിനൊന്ന് പ്രത്യേക ടൂളുകളിലായി 85,000-ലധികം ഓപ്ഷനുകളിൽ നിന്ന് തിരഞ്ഞെടുക്കാൻ കഴിയുന്ന ഒരു തീരുമാനമെടുക്കൽ എഞ്ചിനായി (decision-making engine) MIRA പ്രവർത്തിക്കുന്നു.

MIMIC-IV ഡാറ്റാസെറ്റിൽ നിന്നുള്ള 500 യഥാർത്ഥ എമർജൻസി ഡിപ്പാർട്ട്മെന്റ് കേസുകൾ ഉപയോഗിച്ച് MIRA നടത്തിയ പരിശോധനകൾ മികച്ച ഫലങ്ങൾ നൽകി:

  • രോഗനിർണ്ണയ കൃത്യത: MIRA 88.9% ശരിയായ രോഗനിർണ്ണയ നിരക്ക് കൈവരിച്ചു.
  • നേരിട്ടുള്ള താരതമ്യം: 311 കേസുകളുടെ ഒരു വിഭാഗത്തിൽ, MIRA 87.8% സ്കോർ ചെയ്തു; ഇത് പരിചയസമ്പന്നരായ സ്പെഷ്യലിസ്റ്റുകളെക്കാളും (78.1%) റെസിഡന്റുകളുടെയും സ്പെഷ്യലിസ്റ്റുകളുടെയും മിശ്രിത ടീമുകളെക്കാളും (71.1%) ഗണ്യമായി മികച്ചതാണ്.
  • ക്ലിനിക്കൽ കരുത്ത്: ഉയർന്ന തീവ്രതയുള്ള സാഹചര്യങ്ങളിൽ ഈ സിസ്റ്റം മികച്ച പ്രകടനം കാഴ്ചവെച്ചു; അപ്പൻഡിസൈറ്റിസിന് (appendicitis) 98.6% കൃത്യതയും പാൻക്രിയാറ്റൈറ്റിസിന് (pancreatitis) 92.3% കൃത്യതയും ഇത് നേടി.
  • സുരക്ഷാ പ്രകടനം: അപകടകരമായ മരുന്ന് സംയോജനങ്ങളോ (drug interactions) തെറ്റായ അളവോ (incorrect dosing) ഇല്ലെന്ന് റിവ്യൂവർമാർ കണ്ടെത്തി. കൂടാതെ, ആശുപത്രിയിൽ പ്രവേശിപ്പിക്കേണ്ട രോഗികളെ തിരിച്ചറിയുന്നതിൽ സിസ്റ്റം മികച്ച വിജയം നേടി.

ഗൂഗിളിന്റെ AMIE: ദീർഘകാല ക്ലിനിക്കൽ മാർഗ്ഗനിർദ്ദേശങ്ങളിൽ വൈദഗ്ധ്യം നേടുന്നു

MIRA അടിയന്തര സാഹചര്യങ്ങളിലെ തീരുമാനങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുമ്പോൾ, ഗൂഗിളിന്റെ AMIE (Articulate Medical Intelligence Explorer) ദീർഘകാല പ്രാഥമിക പരിചരണത്തിനായി (longitudinal primary care) രൂപകൽപ്പന ചെയ്തതാണ്. AMIE ഒരു ഡ്യുവൽ-ഏജന്റ് ആർക്കിടെക്ചർ ഉപയോഗിക്കുന്നു: രോഗികളുമായുള്ള സംഭാഷണത്തിനായി ഒരു കൺവേർസേഷണൽ ഏജന്റും, കേസുകളെ യുകെയിലെ NICE Guidance പോലുള്ള മെഡിക്കൽ മാർഗ്ഗനിർദ്ദേശങ്ങളുമായി താരതമ്യം ചെയ്യാൻ ഒരു ബാക്ക്ഗ്രൗണ്ട് ഏജന്റും ഇതിലുണ്ട്.

ഒന്നിലധികം സന്ദർശനങ്ങളിലായി നടന്ന 100 കേസുകൾ ഉൾപ്പെടുത്തിയ ഒരു പഠനത്തിൽ, ചികിത്സാ തീരുമാനങ്ങളിൽ AMIE ഡോക്ടർമാരെപ്പോലെ തന്നെ പ്രവർത്തിക്കുകയും മാർഗ്ഗനിർദ്ദേശങ്ങൾ പാലിക്കുന്നതിൽ അവരെ മറികടക്കുകയും ചെയ്തു. ഏറ്റവും ശ്രദ്ധേയമായ കാര്യം, മനുഷ്യരായ ഡോക്ടർമാരുടെ 72% ചികിത്സാ പദ്ധതികളുമായി താരതമ്യം ചെയ്യുമ്പോൾ, AMIE-യുടെ ചികിത്സാ പദ്ധതികൾ 95% കേസുകളിലും അനുയോജ്യമാണെന്ന് വിലയിരുത്തപ്പെട്ടു. ലൈസൻസുള്ള ഫാർമസിസ്റ്റുകൾ പരിശോധിക്കുന്ന ഔഷധ വിജ്ഞാനത്തിന്റെ കർശനമായ പരിശോധനയായ RxQA ബെഞ്ച്മാർക്കിലും AMIE ഡോക്ടർമാരേക്കാൾ മികച്ച പ്രകടനം കാഴ്ചവെച്ചു.

"Scaffolding" പ്രതിസന്ധിയും ഭാവിയിലെ പരിമിതികളും

ഉയർന്ന പ്രകടനം കാഴ്ചവെച്ചിട്ടുണ്ടെങ്കിലും, പഠനങ്ങളിൽ നിന്ന് ഒരു പ്രധാന സാങ്കേതിക സൂക്ഷ്മത വെളിപ്പെട്ടു. MIRA (GPT-4o, o1-preview എന്നിവ ഉപയോഗിക്കുന്നത്), AMIE (Gemini 1.5 Flash ഉപയോഗിക്കുന്നത്) എന്നിവ രണ്ടും "scaffolding"-നെ വളരെയധികം ആശ്രയിക്കുന്നു—അതായത് മോഡലിന്റെ യുക്തിചിന്തയെ (reasoning) നയിക്കാൻ രൂപകൽപ്പന ചെയ്ത സങ്കീർണ്ണമായ ബാഹ്യ ചട്ടക്കൂടുകൾ.

അനുബന്ധ പരീക്ഷണങ്ങൾ ഒരു സാധ്യമായ "aging" പ്രശ്നത്തെ സൂചിപ്പിക്കുന്നു: ഈ സ്കാഫോൾഡിംഗ് പഴയതോ ചെറുതോ ആയ മോഡലുകളുടെ പ്രകടനം ഗണ്യമായി വർദ്ധിപ്പിക്കുന്നുണ്ടെങ്കിലും, അടിസ്ഥാന മോഡലുകൾ (foundational models) കൂടുതൽ സ്വാഭാവികമായി കഴിവുള്ളവയായി മാറുമ്പോൾ ഇതിന്റെ ആവശ്യകത കുറഞ്ഞേക്കാം. നിലവിലെ വിജയം മികച്ച ബുദ്ധിശക്തിയുടെ ഫലമാണോ അതോ കേവലം മികച്ച പ്രോംപ്റ്റ് എഞ്ചിനീയറിംഗിന്റെയും ആർക്കിടെക്ചറൽ "crutches"-ന്റെയും ഫലമാണോ എന്ന ചോദ്യങ്ങൾ ഇത് ഉയർത്തുന്നു.

കൂടാതെ, ഈ ഫലങ്ങൾ കൃത്രിമമായി നിർമ്മിച്ച (simulated), ഘടനാപരമായ ഡാറ്റയിൽ നിന്നാണ് ലഭിച്ചതെന്ന് ഗവേഷകർ മുന്നറിയിപ്പ് നൽകുന്നു. യഥാർത്ഥ ആരോഗ്യപരിചരണ മേഖലയിലെ "അലങ്കോലമായതും സങ്കീർണ്ണവുമായ മനുഷ്യലോകം" ഇത്തരം സാഹചര്യങ്ങളിൽ ഇല്ലെന്ന് പ്രൊഫസർ കാതറിൻ പോപ്പ് (Catherine Pope) പോലുള്ള വിദഗ്ധർ ചൂണ്ടിക്കാട്ടുന്നു. കൂടാതെ, പരിശീലന സമയത്ത് മോഡലുകൾ MIMIC-IV ഡാറ്റസെറ്റിലെ ചില ഭാഗങ്ങൾ നേരത്തെ തന്നെ കണ്ടിട്ടുണ്ടാകാം എന്ന അപകടസാധ്യതയുമുണ്ട്.

പ്രധാന കണ്ടെത്തലുകൾ

  • സിമുലേഷനിലെ ക്ലിനിക്കൽ മികവ്: നിയന്ത്രിതവും കൃത്രിമവുമായ (simulated) മെഡിക്കൽ സാഹചര്യങ്ങളിൽ, മനുഷ്യരായ വിദഗ്ധരേക്കാൾ ഉയർന്ന രോഗനിർണ്ണയ കൃത്യതയും മാർഗ്ഗനിർദ്ദേശങ്ങൾ പാലിക്കാനുള്ള കഴിവും AI ഏജന്റുകളായ MIRA, AMIE എന്നിവ പ്രകടിപ്പിച്ചു.
  • സുരക്ഷയും കൃത്യതയും: മരുന്ന് മാനേജ്‌മെന്റിലും ആശുപത്രി പ്രവേശന തിരിച്ചറിയുന്നതിലും രണ്ട് സിസ്റ്റങ്ങളും അസാധാരണമായ വിശ്വാസ്യത കാണിച്ചു, ചികിത്സാ പദ്ധതികളുടെ പൂർണ്ണതയിൽ അവ മനുഷ്യരേക്കാൾ മികച്ച പ്രകടനം കാഴ്ചവെച്ചു.
  • സ്കാഫോൾഡിംഗ് ഘടകം: നിലവിലെ വിജയത്തിന്റെ വലിയൊരു ഭാഗം സങ്കീർണ്ണമായ മൾട്ടി-ഏജന്റ് ആർക്കിടെക്ചറുകളെ ആശ്രയിച്ചാണ് നിലനിൽക്കുന്നത്; അടിസ്ഥാന LLM-കൾ വികസിച്ചുകൊണ്ടിരിക്കുമ്പോൾ ഇവയുടെ പ്രസക്തി കുറഞ്ഞേക്കാം.