Agenci AI dorównują lekarzom w badaniach Nature: Wydajność MIRA i AMIE

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 tygodnie temu3min read

In this article

Agenci AI dorównują lekarzom w badaniach opublikowanych w Nature: wydajność MIRA i AMIE

Nowe badania opublikowane w czasopiśmie Nature ujawniają, że autonomiczni agenci AI osiągają obecnie poziom klinicystów lub go przewyższają w symulowanych środowiskach medycznych. Choć przełomy te zwiastują zmianę paradygmatu w dokładności diagnostycznej, eksperci ostrzegają, że obecne poleganie na złożonym „rusztowaniu” (scaffolding) może ograniczyć długofalowe korzyści płynące z ewoluujących architektur modeli.

MIRA: Autonomiczny agent na oddziale ratunkowym

Opracowany przez naukowców z TUD Dresden i Uniwersytetu Heidelberskiego, MIRA (Medical Intelligence for Reasoning and Action) działa jako autonomiczny agent w ramach wirtualnej elektronicznej dokumentacji medycznej. W przeciwieństwie do standardowych modeli LLM, MIRA funkcjonuje jako silnik decyzyjny, który może wybierać spośród ponad 85 000 opcji przy użyciu jedenastu specjalistycznych narzędzi.

Testowanie MIRA na 500 rzeczywistych przypadkach z oddziałów ratunkowych pochodzących ze zbioru danych MIMIC-IV przyniosło imponujące rezultaty:

Dokładność diagnostyczna: MIRA osiągnęła 88,9% poprawnych diagnoz.
Bezpośrednie porównanie: W podzbiorze 311 przypadków MIRA uzyskała wynik 87,8%, znacząco przewyższając doświadczonych specjalistów (78,1%) oraz mieszane zespoły lekarzy rezydentów i specjalistów (71,1%).
Mocne strony kliniczne: System wykazał się doskonałymi wynikami w scenariuszach o wysokim stopniu pilności, osiągając 98,6% dokładności w przypadku zapalenia wyrostka robaczkowego i 92,3% w przypadku zapalenia trzustki.
Profil bezpieczeństwa: Recenzenci przeprowadzający badanie metodą ślepej próby nie stwierdzili niebezpiecznych interakcji leków ani błędnego dawkowania, a system osiągnął doskonały wynik w identyfikowaniu pacjentów wymagających hospitalizacji.

AMIE od Google: Mistrzostwo w przestrzeganiu długoterminowych wytycznych klinicznych

Podczas gdy MIRA koncentruje się na rozumowaniu w stanach ostrych, AMIE (Articulate Medical Intelligence Explorer) od Google jest zaprojektowany do długofalowej opieki podstawowej. AMIE wykorzystuje architekturę dwuagentową: agenta konwersacyjnego do interakcji z pacjentem oraz agenta działającego w tle, który konfrontuje przypadki z wytycznymi medycznymi, takimi jak brytyjskie wytyczne NICE.

W badaniu obejmującym 100 przypadków rozciągniętych na wiele wizyt, AMIE dorównał lekarzom w decyzjach dotyczących leczenia i przewyższył ich w przestrzeganiu wytycznych. Co najważniejsze, plany leczenia AMIE zostały ocenione jako odpowiednie w 95% przypadków, podczas gdy u lekarzy wskaźnik ten wyniósł zaledwie 72%. AMIE przewyższyło również lekarzy w benchmarku RxQA – rygorystycznym teście wiedzy farmaceutycznej, weryfikowanym przez licencjonowanych farmaceutów.

Dylemat „rusztowania” i przyszłe ograniczenia

Pomimo wysokiej wydajności, badania ujawniły istotny niuans techniczny. Zarówno MIRA (wykorzystująca GPT-4o i o1-preview), jak i AMIE (wykorzystująca Gemini 1.5 Flash) w dużym stopniu polegają na „scaffoldingu” — złożonych zewnętrznych ramach zaprojektowanych w celu kierowania procesem rozumowania modelu.

Dodatkowe eksperymenty zasugerowały potencjalny problem „starzenia się”: podczas gdy ten scaffolding znacząco podnosi wydajność starszych lub mniejszych modeli, jego niezbędność może maleć wraz z tym, jak modele bazowe stają się coraz bardziej zdolne w sposób naturalny. Budzi to pytania o to, czy obecny sukces jest wynikiem wyższej inteligencji, czy po prostu doskonałego prompt engineeringu i architektonicznych „protez”.

Co więcej, badacze ostrzegają, że wyniki te pochodzą z symulowanych, ustrukturyzowanych danych. Eksperci, tacy jak profesor Catherine Pope, zauważają, że środowiskom tym brakuje „nieuporządkowanego, złożonego, ludzkiego świata” rzeczywistej opieki zdrowotnej, a istnieje ryzyko, że modele mogły już widzieć części zbioru danych MIMIC-IV podczas treningu.

Kluczowe wnioski

Przewaga kliniczna w symulacji: Agenci AI MIRA i AMIE wykazali wyższą dokładność diagnostyczną i większą zgodność z wytycznymi niż specjaliści-ludzie w kontrolowanych, symulowanych środowiskach medycznych.
Bezpieczeństwo i precyzja: Oba systemy wykazały wyjątkową niezawodność w zarządzaniu lekami i identyfikacji konieczności hospitalizacji, przewyższając ludzi pod względem kompletności planów.
Czynnik scaffoldingu: Duża część obecnego sukcesu opiera się na złożonych architekturach wieloagentowych, które mogą stać się zbędne w miarę dalszego rozwoju podstawowych modeli LLM.

Agenci AI dorównują lekarzom w badaniach Nature: Wydajność MIRA i AMIE

Agenci AI dorównują lekarzom w badaniach opublikowanych w Nature: wydajność MIRA i AMIE

MIRA: Autonomiczny agent na oddziale ratunkowym

AMIE od Google: Mistrzostwo w przestrzeganiu długoterminowych wytycznych klinicznych

Dylemat „rusztowania” i przyszłe ograniczenia

Kluczowe wnioski

Continue reading

Agenci Ambient AI vs Tradycyjna Automatyzacja

Why Treating AI Agents as Coworkers is a Major Productivity Trap

Ile autonomii powinien mieć Twój agent AI?

Jak dużą autonomię powinien mieć Twój agent AI?