Agenci AI dorównują lekarzom w badaniach opublikowanych w Nature: wydajność MIRA i AMIE
Nowe badania opublikowane w czasopiśmie Nature ujawniają, że autonomiczni agenci AI osiągają obecnie poziom klinicystów lub go przewyższają w symulowanych środowiskach medycznych. Choć przełomy te zwiastują zmianę paradygmatu w dokładności diagnostycznej, eksperci ostrzegają, że obecne poleganie na złożonym „rusztowaniu” (scaffolding) może ograniczyć długofalowe korzyści płynące z ewoluujących architektur modeli.
MIRA: Autonomiczny agent na oddziale ratunkowym
Opracowany przez naukowców z TUD Dresden i Uniwersytetu Heidelberskiego, MIRA (Medical Intelligence for Reasoning and Action) działa jako autonomiczny agent w ramach wirtualnej elektronicznej dokumentacji medycznej. W przeciwieństwie do standardowych modeli LLM, MIRA funkcjonuje jako silnik decyzyjny, który może wybierać spośród ponad 85 000 opcji przy użyciu jedenastu specjalistycznych narzędzi.
Testowanie MIRA na 500 rzeczywistych przypadkach z oddziałów ratunkowych pochodzących ze zbioru danych MIMIC-IV przyniosło imponujące rezultaty:
- Dokładność diagnostyczna: MIRA osiągnęła 88,9% poprawnych diagnoz.
- Bezpośrednie porównanie: W podzbiorze 311 przypadków MIRA uzyskała wynik 87,8%, znacząco przewyższając doświadczonych specjalistów (78,1%) oraz mieszane zespoły lekarzy rezydentów i specjalistów (71,1%).
- Mocne strony kliniczne: System wykazał się doskonałymi wynikami w scenariuszach o wysokim stopniu pilności, osiągając 98,6% dokładności w przypadku zapalenia wyrostka robaczkowego i 92,3% w przypadku zapalenia trzustki.
- Profil bezpieczeństwa: Recenzenci przeprowadzający badanie metodą ślepej próby nie stwierdzili niebezpiecznych interakcji leków ani błędnego dawkowania, a system osiągnął doskonały wynik w identyfikowaniu pacjentów wymagających hospitalizacji.
AMIE od Google: Mistrzostwo w przestrzeganiu długoterminowych wytycznych klinicznych
Podczas gdy MIRA koncentruje się na rozumowaniu w stanach ostrych, AMIE (Articulate Medical Intelligence Explorer) od Google jest zaprojektowany do długofalowej opieki podstawowej. AMIE wykorzystuje architekturę dwuagentową: agenta konwersacyjnego do interakcji z pacjentem oraz agenta działającego w tle, który konfrontuje przypadki z wytycznymi medycznymi, takimi jak brytyjskie wytyczne NICE.
W badaniu obejmującym 100 przypadków rozciągniętych na wiele wizyt, AMIE dorównał lekarzom w decyzjach dotyczących leczenia i przewyższył ich w przestrzeganiu wytycznych. Co najważniejsze, plany leczenia AMIE zostały ocenione jako odpowiednie w 95% przypadków, podczas gdy u lekarzy wskaźnik ten wyniósł zaledwie 72%. AMIE przewyższyło również lekarzy w benchmarku RxQA – rygorystycznym teście wiedzy farmaceutycznej, weryfikowanym przez licencjonowanych farmaceutów.
Dylemat „rusztowania” i przyszłe ograniczenia
Pomimo wysokiej wydajności, badania ujawniły istotny niuans techniczny. Zarówno MIRA (wykorzystująca GPT-4o i o1-preview), jak i AMIE (wykorzystująca Gemini 1.5 Flash) w dużym stopniu polegają na „scaffoldingu” — złożonych zewnętrznych ramach zaprojektowanych w celu kierowania procesem rozumowania modelu.
Dodatkowe eksperymenty zasugerowały potencjalny problem „starzenia się”: podczas gdy ten scaffolding znacząco podnosi wydajność starszych lub mniejszych modeli, jego niezbędność może maleć wraz z tym, jak modele bazowe stają się coraz bardziej zdolne w sposób naturalny. Budzi to pytania o to, czy obecny sukces jest wynikiem wyższej inteligencji, czy po prostu doskonałego prompt engineeringu i architektonicznych „protez”.
Co więcej, badacze ostrzegają, że wyniki te pochodzą z symulowanych, ustrukturyzowanych danych. Eksperci, tacy jak profesor Catherine Pope, zauważają, że środowiskom tym brakuje „nieuporządkowanego, złożonego, ludzkiego świata” rzeczywistej opieki zdrowotnej, a istnieje ryzyko, że modele mogły już widzieć części zbioru danych MIMIC-IV podczas treningu.
Kluczowe wnioski
- Przewaga kliniczna w symulacji: Agenci AI MIRA i AMIE wykazali wyższą dokładność diagnostyczną i większą zgodność z wytycznymi niż specjaliści-ludzie w kontrolowanych, symulowanych środowiskach medycznych.
- Bezpieczeństwo i precyzja: Oba systemy wykazały wyjątkową niezawodność w zarządzaniu lekami i identyfikacji konieczności hospitalizacji, przewyższając ludzi pod względem kompletności planów.
- Czynnik scaffoldingu: Duża część obecnego sukcesu opiera się na złożonych architekturach wieloagentowych, które mogą stać się zbędne w miarę dalszego rozwoju podstawowych modeli LLM.