ИИ-агенты соперничают с врачами в исследованиях Nature: показатели MIRA и AMIE

Новое исследование, опубликованное в журнале Nature, показывает, что автономные ИИ-агенты теперь демонстрируют результаты на уровне или даже выше уровня врачей-клиницистов в симулированных медицинских средах. Хотя эти прорывы знаменуют собой смену парадигмы в точности диагностики, эксперты предупреждают, что нынешняя зависимость от сложных «поддерживающих структур» (scaffolding) может ограничить долгосрочные преимущества развивающихся архитектур моделей.

MIRA: Автономный агент отделения неотложной помощи

Разработанная исследователями из ТУ Дрездена и Гейдельбергского университета, MIRA (Medical Intelligence for Reasoning and Action) функционирует как автономный агент в рамках виртуальной электронной медицинской карты. В отличие от стандартных LLM, MIRA работает как механизм принятия решений, способный выбирать из более чем 85 000 вариантов с помощью одиннадцати специализированных инструментов.

Тестирование MIRA на 500 реальных случаях из отделений неотложной помощи из набора данных MIMIC-IV дало впечатляющие результаты:

  • Точность диагностики: MIRA достигла показателя правильности диагнозов в 88,9%.
  • Прямое сравнение: В подвыборке из 311 случаев MIRA набрала 87,8%, значительно превзойдя опытных специалистов (78,1%) и смешанные группы из ординаторов и специалистов (71,1%).
  • Клинические преимущества: Система показала отличные результаты в сценариях с высокой остротой состояния, достигнув точности 98,6% при диагностике аппендицита и 92,3% при панкреатите.
  • Профиль безопасности: Слепые рецензенты не обнаружили опасных лекарственных взаимодействий или неправильных дозировок, а система показала идеальный результат в выявлении пациентов, нуждающихся в госпитализации.

Google AMIE: Освоение долгосрочных клинических рекомендаций

В то время как MIRA фокусируется на остром мышлении, разработанная Google система AMIE (Articulate Medical Intelligence Explorer) предназначена для долгосрочного ведения пациентов в рамках первичной медико-санитарной помощи. AMIE использует двух агентную архитектуру: разговорного агента для взаимодействия с пациентом и фонового агента, который сверяет случаи с медицинскими рекомендациями, такими как руководство NICE в Великобритании.

В исследовании, охватившем 100 случаев в течение нескольких визитов, AMIE сравнялась с врачами в принятии решений о лечении и превзошла их в соблюдении клинических рекомендаций. Что наиболее примечательно, планы лечения AMIE были признаны уместными в 95% случаев, по сравнению всего с 72% у врачей-людей. AMIE также превзошла врачей в бенчмарке RxQA — строгом тесте на знание фармацевтических препаратов, проверяемом лицензированными фармацевтами.

Дилемма «поддерживающих структур» и будущие ограничения

Несмотря на высокую производительность, в ходе исследований выявился критический технический нюанс. Как MIRA (использующая GPT-4o и o1-preview), так и AMIE (использующая Gemini 1.5 Flash) в значительной степени полагаются на «скаффолдинг» (scaffolding) — сложные внешние структуры, предназначенные для направления рассуждений модели.

Дополнительные эксперименты указали на потенциальную проблему «старения»: хотя этот скаффолдинг значительно повышает производительность старых или менее крупных моделей, его необходимость может снизиться по мере того, как базовые модели будут становиться более способными по своей природе. Это ставит вопрос о том, является ли нынешний успех результатом превосходного интеллекта или же просто следствием продвинутого промпт-инжиниринга и архитектурных «костылей».

Кроме того, исследователи предупреждают, что эти результаты получены на основе симулированных структурированных данных. Эксперты, такие как профессор Кэтрин Поуп, отмечают, что в этих средах отсутствует «хаотичный, сложный человеческий мир» реального здравоохранения, и существует риск того, что модели могли уже видеть части набора данных MIMIC-IV во время обучения.

Основные выводы

  • Клиническое превосходство в симуляции: ИИ-агенты MIRA и AMIE продемонстрировали более высокую точность диагностики и соблюдение клинических рекомендаций, чем специалисты-люди в контролируемых симулированных медицинских средах.
  • Безопасность и точность: Обе системы показали исключительную надежность в управлении приемом лекарств и определении необходимости госпитализации, превзойдя людей по полноте составленных планов.
  • Фактор скаффолдинга: Большая часть нынешнего успеха опирается на сложные мультиагентные архитектуры, которые могут стать избыточными по мере дальнейшего развития базовых LLM.