Các tác nhân AI đối đầu với bác sĩ trong các nghiên cứu trên Nature: Hiệu suất của MIRA và AMIE
Nghiên cứu mới được công bố trên tạp chí Nature tiết lộ rằng các tác nhân AI tự hành hiện đang đạt được hiệu suất ngang bằng hoặc vượt trội hơn so với các bác sĩ lâm sàng trong các môi trường y tế mô phỏng. Mặc dù những đột phá này báo hiệu một sự thay đổi mang tính bước ngoặt về độ chính xác trong chẩn đoán, các chuyên gia cảnh báo rằng việc phụ thuộc vào các cấu trúc "giàn giáo" (scaffolding) phức tạp hiện nay có thể hạn chế lợi ích lâu dài của các kiến trúc mô hình đang phát triển.
MIRA: Tác nhân phòng cấp cứu tự hành
Được phát triển bởi các nhà nghiên cứu tại TUD Dresden và Đại học Heidelberg, MIRA (Medical Intelligence for Reasoning and Action) hoạt động như một tác nhân tự hành trong hồ sơ sức khỏe điện tử ảo. Không giống như các LLM tiêu chuẩn, MIRA hoạt động như một công cụ ra quyết định có thể lựa chọn từ hơn 85.000 tùy chọn thông qua mười một công cụ chuyên dụng.
Việc thử nghiệm MIRA với 500 trường hợp cấp cứu thực tế từ bộ dữ liệu MIMIC-IV đã mang lại kết quả ấn tượng:
- Độ chính xác chẩn đoán: MIRA đạt tỷ lệ chẩn đoán chính xác là 88,9%.
- So sánh trực tiếp: Trong một nhóm gồm 311 trường hợp, MIRA đạt 87,8%, vượt xa các bác sĩ chuyên khoa giàu kinh nghiệm (78,1%) và các nhóm hỗn hợp gồm bác sĩ nội trú và bác sĩ chuyên khoa (71,1%).
- Thế mạnh lâm sàng: Hệ thống đã thể hiện xuất sắc trong các tình huống cấp cứu nghiêm trọng, đạt độ chính xác 98,6% đối với viêm ruột thừa và 92,3% đối với viêm tụy.
- Hồ sơ an toàn: Các đánh giá viên mù không tìm thấy tương tác thuốc nguy hiểm hay sai sót về liều lượng, và hệ thống đã đạt thành tích hoàn hảo trong việc xác định các bệnh nhân cần nhập viện.
AMIE của Google: Làm chủ các hướng dẫn lâm sàng dài hạn
Trong khi MIRA tập trung vào suy luận cấp tính, AMIE (Articulate Medical Intelligence Explorer) của Google được thiết kế cho chăm sóc sức khỏe ban đầu theo thời gian dài. AMIE sử dụng kiến trúc tác nhân kép: một tác nhân hội thoại để tương tác với bệnh nhân và một tác nhân chạy ngầm để đối chiếu các trường hợp với các hướng dẫn y tế như Hướng dẫn NICE của Vương quốc Anh.
Trong một nghiên cứu bao gồm 100 trường hợp trải dài qua nhiều lần thăm khám, AMIE đã ngang hàng với các bác sĩ trong các quyết định điều trị và vượt qua họ về mức độ tuân thủ hướng dẫn. Đáng chú ý nhất, các kế hoạch điều trị của AMIE được đánh giá là phù hợp trong 95% trường hợp, so với chỉ 72% ở các bác sĩ là con người. AMIE cũng vượt qua các bác sĩ trong bài kiểm tra chuẩn RxQA, một bài kiểm tra nghiêm ngặt về kiến thức dược phẩm được xác minh bởi các dược sĩ có giấy phép.
Nghịch lý "Giàn giáo" và những hạn chế trong tương lai
Mặc dù đạt hiệu suất cao, một sắc thái kỹ thuật quan trọng đã nảy sinh từ các nghiên cứu. Cả MIRA (sử dụng GPT-4o và o1-preview) và AMIE (sử dụng Gemini 1.5 Flash) đều phụ thuộc nhiều vào "scaffolding" (giàn giáo) — các khung làm việc bên ngoài phức tạp được thiết kế để dẫn dắt khả năng lập luận của mô hình.
Các thí nghiệm bổ sung cho thấy một vấn đề tiềm ẩn về sự "lỗi thời": trong khi giàn giáo này giúp tăng đáng kể hiệu suất của các mô hình cũ hoặc nhỏ hơn, sự cần thiết của nó có thể giảm dần khi các mô hình nền tảng trở nên có khả năng tự thân mạnh mẽ hơn. Điều này đặt ra câu hỏi liệu thành công hiện tại là kết quả của trí tuệ vượt trội hay đơn thuần là nhờ kỹ thuật gợi ý (prompt engineering) và các "công cụ hỗ trợ" về mặt kiến trúc vượt trội.
Hơn nữa, các nhà nghiên cứu cảnh báo rằng những kết quả này được rút ra từ dữ liệu mô phỏng có cấu trúc. Các chuyên gia như Giáo sư Catherine Pope lưu ý rằng những môi trường này thiếu đi "thế giới con người phức tạp và hỗn loạn" của ngành chăm sóc sức khỏe thực tế, và có rủi ro là các mô hình có thể đã từng tiếp cận một phần tập dữ liệu MIMIC-IV trong quá trình huấn luyện.
Các điểm chính cần lưu ý
- Sự vượt trội về lâm sàng trong mô phỏng: Các tác nhân AI MIRA và AMIE đã chứng minh độ chính xác trong chẩn đoán và mức độ tuân thủ hướng dẫn cao hơn so với các chuyên gia là con người trong các môi trường y tế mô phỏng được kiểm soát.
- An toàn và Chính xác: Cả hai hệ thống đều cho thấy độ tin cậy đặc biệt trong việc quản lý thuốc và xác định nhập viện, vượt qua con người về mức độ hoàn thiện của kế hoạch điều trị.
- Yếu tố "giàn giáo" (Scaffolding): Phần lớn thành công hiện tại dựa vào các kiến trúc đa tác nhân phức tạp, những kiến trúc này có thể trở nên dư thừa khi các LLM nền tảng tiếp tục phát triển.