وكلاء الذكاء الاصطناعي ينافسون الأطباء في دراسات Nature: أداء MIRA و AMIE
كشفت أبحاث جديدة نُشرت في مجلة Nature أن وكلاء الذكاء الاصطناعي المستقلين باتوا يؤدون الآن بمستوى يضاهي أو يتفوق على الأطباء البشريين في بيئات طبية محاكية. وبينما تشير هذه الاختراقات إلى تحول جذري في دقة التشخيص، يحذر الخبراء من أن الاعتماد الحالي على "الهياكل الداعمة" (scaffolding) المعقدة قد يحد من الفوائد طويلة المدى لتطور بنيات النماذج.
MIRA: وكيل غرفة الطوارئ المستقل
يعمل نظام MIRA (الذكاء الطبي للاستنتاج والعمل)، الذي طوره باحثون في جامعة TUD Dresden وجامعة Heidelberg، كوكيل مستقل ضمن سجل صحي إلكتروني افتراضي. وبخلاف النماذج اللغوية الكبيرة (LLMs) القياسية، يعمل MIRA كمحرك لاتخاذ القرار يمكنه الاختيار من بين أكثر من 85,000 خيار عبر إحدى عشرة أداة متخصصة.
أسفر اختبار MIRA مقابل 500 حالة حقيقية من أقسام الطوارئ من مجموعة بيانات MIMIC-IV عن نتائج مبهرة:
- دقة التشخيص: حقق MIRA معدل تشخيص صحيح بنسبة 88.9%.
- مقارنة مباشرة: في مجموعة فرعية مكونة من 311 حالة، سجل MIRA نسبة 87.8%، متفوقاً بشكل ملحوظ على المتخصصين ذوي الخبرة (78.1%) والفرق المختلطة من الأطباء المقيمين والمتخصصين (71.1%).
- نقاط القوة السريرية: تفوق النظام في السيناريوهات عالية الخطورة، حيث حقق دقة بلغت 98.6% لحالات التهاب الزائدة الدودية و92.3% لحالات التهاب البنكرياس.
- مستوى السلامة: لم يجد المراجعون (في دراسة عمياء) أي تفاعلات دوائية خطيرة أو جرعات غير صحيحة، وحقق النظام سجلاً مثالياً في تحديد المرضى الذين يحتاجون إلى دخول المستشفى.
AMIE من Google: إتقان الإرشادات السريرية طويلة المدى
بينما يركز MIRA على الاستنتاج الحاد، صُمم نظام AMIE (مستكشف الذكاء الطبي الفصيح) من Google للرعاية الأولية الطولية. يستخدم AMIE بنية مكونة من وكيلين: وكيل محادثة للتفاعل مع المريض، ووكيل خلفي يقوم بمطابقة الحالات مع الإرشادات الطبية مثل إرشادات NICE في المملكة المتحدة.
في دراسة شملت 100 حالة امتدت عبر زيارات متعددة، ساوى AMIE الأطباء في قرارات العلاج وتفوق عليهم في الالتزام بالإرشادات. والأهم من ذلك، تم تقييم خطط العلاج الخاصة بـ AMIE على أنها مناسبة في 95% من الحالات، مقارنة بـ 72% فقط للأطباء البشريين. كما تفوق AMIE على الأطباء في معيار RxQA، وهو اختبار صارم للمعرفة الصيدلانية تم التحقق منه من قبل صيادلة مرخصين.
معضلة "الهياكل الداعمة" والقيود المستقبلية
على الرغم من الأداء العالي، برزت فوارق تقنية دقيقة من الدراسات. يعتمد كل من MIRA (باستخدام GPT-4o و o1-preview) و AMIE (باستخدام Gemini 1.5 Flash) بشكل كبير على "السقالات" (scaffolding)—وهي أطر عمل خارجية معقدة مصممة لتوجيه استنتاج النموذج.
أشارت التجارب التكميلية إلى مشكلة "تقادم" محتملة: فبينما تساهم هذه السقالات في تعزيز أداء النماذج الأقدم أو الأصغر بشكل كبير، قد تتضاءل ضرورتها مع زيادة القدرات الجوهرية للنماذج التأسيسية. وهذا يثير تساؤلات حول ما إذا كان النجاح الحالي نتيجة لذكاء متفوق أم مجرد هندسة أوامر (prompt engineering) متفوقة و"عكازات" معمارية.
علاوة على ذلك، يحذر الباحثون من أن هذه النتائج مستمدة من بيانات محاكاة ومنظمة. وتشير خبيرة مثل البروفيسورة كاثرين بوب إلى أن هذه البيئات تفتقر إلى "العالم البشري الفوضوي والمعقد" للرعاية الصحية الفعلية، وهناك خطر من أن تكون النماذج قد رأت بالفعل أجزاءً من مجموعة بيانات MIMIC-IV أثناء التدريب.
أهم الاستنتاجات
- التفوق السريري في المحاكاة: أظهر وكلاء الذكاء الاصطناعي MIRA و AMIE دقة تشخيصية والتزاماً بالإرشادات أعلى من المتخصصين البشريين في بيئات طبية محاكاة ومنضبطة.
- السلامة والدقة: أظهر كلا النظامين موثوقية استثنائية في إدارة الأدوية وتحديد حالات الاستشفاء، متفوقين على البشر في اكتمال الخطط.
- عامل السقالات: يعتمد جزء كبير من النجاح الحالي على بنيات معقدة متعددة الوكلاء قد تصبح غير ضرورية مع استمرار تطور نماذج LLMs التأسيسية.