סוכני AI מתחרים ברופאים במחקרי Nature: ביצועי MIRA ו-AMIE

מחקר חדש שפורסם ב-Nature חושף כי סוכני AI אוטונומיים פועלים כעת ברמה של קלינאים אנושיים או אף מעליהם בסביבות רפואיות מדומות. בעוד שפריצות דרך אלו מסמנות שינוי פרדיגמה בדיוק האבחוני, מומחים מזהירים כי ההסתמכות הנוכחית על "פיגומים" (scaffolding) מורכבים עלולה להגביל את היתרונות ארוכי הטווח של ארכיטקטורות מודלים מתפתחות.

MIRA: סוכן חדר המיון האוטונומי

MIRA (Medical Intelligence for Reasoning and Action), שפותחה על ידי חוקרים ב-TUD Dresden ובאוניברסיטת היידלברג, פועלת כסוכן אוטונומי בתוך תיק רפואי אלקטרוני וירטואלי. בניגוד למודלי שפה גדולים (LLMs) סטנדרטיים, MIRA מתפקדת כמנוע קבלת החלטות שיכול לבחור מתוך למעלה מ-85,000 אפשרויות בתוך אחת-עשרה כלים מתמחים.

בדיקת MIRA מול 500 מקרים אמיתיים ממחלקת מיון מתוך מאגר הנתונים MIMIC-IV הניבה תוצאות מרשימות:

  • דיוק אבחוני: MIRA השיגה שיעור אבחון נכון של 88.9%.
  • השוואה ישירה (Head-to-Head): בתת-קבוצה של 311 מקרים, MIRA רשמה 87.8%, תוצאה שעקפה משמעותית מומחים מנוסים (78.1%) וצוותים מעורבים של מתמחים ומומחים (71.1%).
  • חוזקות קליניות: המערכת הצטיינה בתרחישים בעלי דחיפות גבוהה, עם דיוק של 98.6% לדלקת התוספתן (appendicitis) ו-92.3% לדלקת הלבלב (pancreatitis).
  • פרופיל בטיחות: בודקים עיוורים לא מצאו אינטראקציות תרופתיות מסוכנות או מינונים שגויים, והמערכת רשמה הישג מושלם בזיהוי מטופלים הזקוקים לאשפוז.

AMIE של Google: שליטה בהנחיות קליניות ארוכות טווח

בעוד ש-MIRA מתמקדת בהסקה אקוטית, AMIE של Google (Articulate Medical Intelligence Explorer) תוכננה לטיפול ראשוני לאורך זמן (longitudinal). AMIE משתמשת בארכיטקטורת סוכנים כפולה: סוכן שיח עבור אינטראקציה עם המטופל, וסוכן רקע המבצע הצלבה של המקרים מול הנחיות רפואיות כגון הנחיות ה-NICE של בריטניה.

במחקר שכלל 100 מקרים לאורך מספר ביקורים, AMIE הגיעה לרמת השוואה עם רופאים בהחלטות טיפוליות ועקפה אותם בעמידה בהנחיות. בולטת במיוחד העובדה שתוכניות הטיפול של AMIE דורגו כמתאימות ב-95% מהמקרים, לעומת 72% בלבד אצל רופאים אנושיים. AMIE גם עקפה רופאים במבחן ה-RxQA, מבחן קפדני של ידע פרמקולוגי המאומת על ידי רוקחים מורשים.

דילמת ה-"Scaffolding" והמגבלות העתידיות

למרות הביצועים הגבוהים, עלתה הבחנה טכנית קריטית מתוך המחקרים. הן MIRA (המשתמשת ב-GPT-4o וב-o1-preview) והן AMIE (המשתמשת ב-Gemini 1.5 Flash) מסתמכות רבות על "scaffolding" — מסגרות חיצוניות מורכבות שנועדו להנחות את יכולת ההסקה של המודל.

ניסויים משלימים הצביעו על בעיית "הזדקנות" פוטנציאלית: בעוד ש-scaffolding זה משפר משמעותית את הביצועים של מודלים ישנים או קטנים יותר, הצורך בו עשוי לפחות ככל שמודלי הבסיס (foundational models) יהפכו ליכולתיים יותר באופן מובנה. הדבר מעלה שאלות לגבי השאלה האם ההצלחה הנוכחית היא תוצאה של אינטליגנציה עדיפה, או פשוט הנדסת פרומפטים (prompt engineering) ו"קביים" ארכיטקטוניים מעולים.

יתרה מכך, חוקרים מזהירים כי תוצאות אלו נגזרות מנתונים מובנים ומדומים. מומחים כמו פרופסור קתרין פופ מציינים כי בסביבות אלו חסר "העולם האנושי המבולגן והמורכב" של שירותי הבריאות בפועל, וקיים סיכון שהמודלים כבר ראו חלקים ממאגר הנתונים MIMIC-IV במהלך האימון.

נקודות מפתח

  • עליונות קלינית בסימולציה: סוכני ה-AI, MIRA ו-AMIE, הפגינו דיוק אבחנתי גבוה יותר ועמידה בהנחיות גבוהה יותר מאשר מומחים אנושיים בסביבות רפואיות מבוקרות ומדומות.
  • בטיחות ודיוק: שתי המערכות הראו אמינות יוצאת דופן בניהול תרופות ובזיהוי הצורך באשפוז, תוך שהן עוקפות בני אדם במידת השלמות של התוכנית.
  • גורם ה-Scaffolding: חלק גדול מההצלחה הנוכחית נשען על ארכיטקטורות מרובות-סוכנים (multi-agent) מורכבות, שעשויות להפוך למיותרות ככל שמודלי ה-LLM הבסיסיים ימשיכו להתפתח.