Nature అధ్యయనాలలో వైద్యులతో పోటీపడుతున్న AI ఏజెంట్లు: MIRA మరియు AMIE పనితీరు

Natureలో ప్రచురితమైన కొత్త పరిశోధన ప్రకారం, స్వయంప్రతిపత్తి కలిగిన AI ఏజెంట్లు ఇప్పుడు అనుకరింపబడిన (simulated) వైద్య వాతావరణాలలో మానవ వైద్యుల స్థాయికి సమానంగా లేదా అంతకంటే మెరుగ్గా పనిచేస్తున్నాయి. ఈ విప్లవాత్మక మార్పులు రోగ నిర్ధారణ ఖచ్చితత్వంలో ఒక నూతన మార్పును సూచిస్తున్నప్పటికీ, సంక్లిష్టమైన "scaffolding" పై ప్రస్తుతం ఉన్న ఆధారితం, అభివృద్ధి చెందుతున్న మోడల్ ఆర్కిటెక్చర్‌ల దీర్ఘకాలిక ప్రయోజనాలను పరిమితం చేయవచ్చని నిపుణులు హెచ్చరిస్తున్నారు.

MIRA: స్వయంప్రతిపత్తి కలిగిన ఎమర్జెన్సీ రూమ్ ఏజెంట్

TUD Dresden మరియు Heidelberg యూనివర్శిటీ పరిశోధకులు అభివృద్ధి చేసిన MIRA (Medical Intelligence for Reasoning and Action), వర్చువల్ ఎలక్ట్రానిక్ హెల్త్ రికార్డ్‌లో ఒక స్వయంప్రతిపత్తి కలిగిన ఏజెంట్‌గా పనిచేస్తుంది. సాధారణ LLMల వలె కాకుండా, MIRA పదకొండు ప్రత్యేక సాధనాల ద్వారా 85,000 కంటే ఎక్కువ ఎంపికల నుండి ఎంచుకోగల నిర్ణయాత్మక ఇంజిన్‌గా పనిచేస్తుంది.

MIMIC-IV డేటాసెట్ నుండి 500 నిజమైన ఎమర్జెన్సీ విభాగ కేసులతో MIRAని పరీక్షించినప్పుడు అద్భుతమైన ఫలితాలు వచ్చాయి:

  • రోగ నిర్ధారణ ఖచ్చితత్వం: MIRA 88.9% సరైన రోగ నిర్ధారణ రేటును సాధించింది.
  • ప్రత్యక్ష పోలిక: 311 కేసుల సబ్‌సెట్‌లో, MIRA 87.8% స్కోరు సాధించింది, ఇది అనుభవజ్ఞులైన స్పెషలిస్టుల (78.1%) మరియు రెసిడెంట్లు మరియు స్పెషలిస్టుల మిశ్రమ బృందాల (71.1%) కంటే గణనీయంగా మెరుగ్గా ఉంది.
  • క్లినికల్ బలాలు: ఈ వ్యవస్థ అత్యవసర పరిస్థితులలో (high-acuity scenarios) అద్భుతంగా పనిచేసింది, అపెండిసైటిస్ కోసం 98.6% మరియు ప్యాంక్రియాటైటిస్ కోసం 92.3% ఖచ్చితత్వాన్ని సాధించింది.
  • భద్రతా ప్రొఫైల్: రివ్యూయర్లు ఎటువంటి ప్రమాదకరమైన డ్రగ్ ఇంటరాక్షన్‌లు లేదా తప్పు డోసింగ్‌లను గుర్తించలేదు, మరియు ఆసుపత్రిలో చేరవలసిన రోగులను గుర్తించడంలో ఈ వ్యవస్థ పరిపూర్ణమైన రికార్డును సాధించింది.

Google యొక్క AMIE: దీర్ఘకాలిక క్లినికల్ మార్గదర్శకాలను అందుకోవడం

MIRA తక్షణ నిర్ణయాలపై (acute reasoning) దృష్టి పెడితే, Google యొక్క AMIE (Articulate Medical Intelligence Explorer) దీర్ఘకాలిక ప్రాథమిక సంరక్షణ (longitudinal primary care) కోసం రూపొందించబడింది. AMIE ఒక డ్యూయల్-ఏజెంట్ ఆర్కిటెక్చర్‌ను ఉపయోగిస్తుంది: రోగులతో సంభాషించడానికి ఒక కన్వర్సేషనల్ ఏజెంట్ మరియు కేసులను UK యొక్క NICE Guidance వంటి వైద్య మార్గదర్శకాలతో సరిపోల్చడానికి ఒక బ్యాక్‌గ్రౌండ్ ఏజెంట్.

బహుళ సందర్శనలకు సంబంధించిన 100 కేసుల అధ్యయనంలో, AMIE చికిత్స నిర్ణయాలలో వైద్యులతో సమానంగా నిలిచింది మరియు మార్గదర్శకాలను పాటించడంలో వారిని అధిగమించింది. ముఖ్యంగా, మానవ వైద్యుల 72% తో పోలిస్తే, AMIE చికిత్స ప్రణాళికలు 95% కేసులలో తగినవిగా రేట్ చేయబడ్డాయి. లైసెన్స్ పొందిన ఫార్మసిస్ట్‌లచే ధృవీకరించబడిన ఫార్మాస్యూటికల్ నాలెడ్జ్ యొక్క కఠినమైన పరీక్ష అయిన RxQA బెంచ్‌మార్క్‌లో కూడా AMIE వైద్యుల కంటే మెరుగ్గా పనిచేసింది.

"Scaffolding" సందిగ్ధత మరియు భవిష్యత్తు పరిమితులు

అధిక పనితీరు ఉన్నప్పటికీ, అధ్యయనాల నుండి ఒక కీలకమైన సాంకేతిక సూక్ష్మత వెలుగులోకి వచ్చింది. MIRA (GPT-4o మరియు o1-preview ఉపయోగించి) మరియు AMIE (Gemini 1.5 Flash ఉపయోగించి) రెండూ "scaffolding" పై ఎక్కువగా ఆధారపడతాయి—అంటే మోడల్ యొక్క తర్కాన్ని (reasoning) నడిపించడానికి రూపొందించబడిన సంక్లిష్టమైన బాహ్య ఫ్రేమ్‌వర్క్‌లు.

అదనపు ప్రయోగాలు ఒక సంభావ్య "aging" సమస్యను సూచించాయి: ఈ scaffolding పాత లేదా చిన్న మోడళ్ల పనితీరును గణనీయంగా పెంచినప్పటికీ, ఫౌండేషనల్ మోడల్స్ సహజంగానే మరింత సామర్థ్యం గలవిగా మారే కొద్దీ దీని అవసరం తగ్గే అవకాశం ఉంది. ప్రస్తుత విజయం ఉన్నతమైన మేధస్సు వల్ల వచ్చిందా లేక కేవలం మెరుగైన ప్రాంప్ట్ ఇంజనీరింగ్ మరియు ఆర్కిటెక్చరల్ "crutches" (ఆధారాలు) వల్ల వచ్చిందా అనే ప్రశ్నలను ఇది లేవనెత్తుతోంది.

అంతేకాకుండా, ఈ ఫలితాలు సిమ్యులేటెడ్, నిర్మాణాత్మక డేటా నుండి పొందబడ్డాయని పరిశోధకులు హెచ్చరిస్తున్నారు. అసలైన ఆరోగ్య సంరక్షణలో ఉండే "అస్తవ్యస్తమైన, సంక్లిష్టమైన, మానవ ప్రపంచం" ఈ వాతావరణాల్లో లేదని ప్రొఫెసర్ క్యాథరిన్ పోప్ వంటి నిపుణులు పేర్కొంటున్నారు, మరియు శిక్షణ సమయంలో ఈ మోడళ్లు ఇప్పటికే MIMIC-IV డేటాసెట్‌లోని కొన్ని భాగాలను చూసి ఉండవచ్చు అనే ప్రమాదం ఉంది.

ముఖ్య అంశాలు

  • సిమ్యులేషన్‌లో క్లినికల్ ఆధిక్యత: నియంత్రిత, సిమ్యులేటెడ్ వైద్య వాతావరణాలలో, మానవ నిపుణుల కంటే AI ఏజెంట్లు MIRA మరియు AMIE అధిక రోగ నిర్ధారణ ఖచ్చితత్వాన్ని మరియు మార్గదర్శకాల అమలును ప్రదర్శించాయి.
  • భద్రత మరియు ఖచ్చితత్వం: మందుల నిర్వహణ మరియు ఆసుపత్రిలో చేర్చడం (hospitalization identification) విషయంలో రెండు వ్యవస్థలు అసాధారణమైన విశ్వసనీయతను చూపించాయి, మరియు ప్రణాళికల పరిపూర్ణతలో మానవుల కంటే మెరుగైన పనితీరును కనబరిచాయి.
  • స్క్యాఫోల్డింగ్ అంశం: ప్రస్తుత విజయాలలో ఎక్కువ భాగం సంక్లిష్టమైన మల్టీ-ఏజెంట్ ఆర్కిటెక్చర్‌లపై ఆధారపడి ఉన్నాయి, ఇవి ఫౌండేషనల్ LLMలు నిరంతరం అభివృద్ధి చెందుతున్న కొద్దీ అనవసరంగా మారవచ్చు.