GPT-5.5 Instant của OpenAI vượt qua các bác sĩ trong bài kiểm tra sức khỏe mới

OpenAI đã chính thức nâng tầm trí tuệ y tế với việc ra mắt mô hình GPT-5.5 Instant, đánh dấu một cột mốc quan trọng trong khả năng suy luận AI chuyên biệt. Bản nâng cấp mới này thể hiện khả năng chưa từng có trong việc sánh ngang với các mô hình "Thinking" cao cấp về độ chính xác y khoa, trong khi vẫn duy trì hiệu quả về chi phí cao hơn đáng kể.

Vượt qua các câu trả lời do bác sĩ viết

Tiết lộ ấn tượng nhất từ dữ liệu mới nhất của OpenAI là GPT-5.5 Instant đã bắt đầu vượt qua các bác sĩ trong các đánh giá tiêu chuẩn hóa cụ thể. Trong các bài kiểm tra (benchmark) độc quyền của OpenAI, mô hình này đã vượt qua cả GPT-4o và các câu trả lời do bác sĩ viết trên năm danh mục đánh giá quan trọng. Đáng chú ý nhất, mô hình đã đạt điểm lên tới 89,9% trong việc tuân thủ hướng dẫn, đảm bảo rằng các truy vấn y tế được đáp ứng bằng sự hướng dẫn chính xác, có cấu trúc và phù hợp với ngữ cảnh.

Bước nhảy vọt về hiệu suất này không chỉ là sự cải thiện nhỏ; nó đại diện cho sự sụt giảm mạnh mẽ về tỷ lệ lỗi. OpenAI báo cáo rằng tần suất các tuyên bố sức khỏe không chính xác đã giảm mạnh 71% trong hai tháng qua, báo hiệu sự ổn định nhanh chóng trong khả năng suy luận của mô hình trong các lĩnh vực có rủi ro cao.

Human-in-the-Loop: Quy mô xác thực y tế

Việc phát triển GPT-5.5 Instant không được thực hiện một cách biệt lập. Để đảm bảo an toàn và độ chính xác lâm sàng, OpenAI đã tận dụng hệ thống tăng cường human-in-the-loop khổng lồ, bao gồm một mạng lưới toàn cầu với hơn 260 bác sĩ từ 60 quốc gia khác nhau. Hội đồng chuyên gia này đã xem xét hơn 700.000 phản hồi của mô hình để tinh chỉnh khả năng suy luận y tế của AI.

Bằng cách sử dụng các bài kiểm tra này, chẳng hạn như HealthBench và HealthBench Professional, OpenAI đã chứng minh rằng GPT-5.5 Instant có thể sánh ngang với hiệu suất của các mô hình "Thinking" đắt đỏ và tiêu tốn nhiều tài nguyên tính toán nhất trong ngành. Quan trọng là, nó thực hiện được điều này với một phần nhỏ chi phí vận hành, giúp trí tuệ y tế cấp cao trở nên dễ tiếp cận hơn với đại chúng.

Bình dân hóa trí tuệ y tế

Những tác động đối với bối cảnh AI rộng lớn hơn là rất sâu sắc, đặc biệt khi xem xét quy mô sử dụng hiện tại. Với hơn 230 triệu người sử dụng ChatGPT hàng tuần cho các truy vấn liên quan đến sức khỏe—từ việc giải thích các kết quả xét nghiệm phức tạp đến việc xử lý các vấn đề bảo hiểm phức tạp—độ chính xác của các mô hình này là một vấn đề có tầm quan trọng đối với công chúng.

OpenAI đang phân tách chiến lược của mình để phục vụ cả hai nhóm đối tượng khác biệt: công chúng nói chung và cộng đồng chuyên gia. Trong khi GPT-5.5 Instant đang được triển khai cho tất cả người dùng ChatGPT miễn phí (tùy thuộc vào giới hạn sử dụng), công ty vẫn tiếp tục mở rộng các hệ sinh thái cấp độ chuyên nghiệp thông qua "ChatGPT for Clinicians" và "OpenAI for Healthcare." Cách tiếp cận kép này nhằm mục đích cung cấp tiện ích tức thì cho việc chuẩn bị cho bệnh nhân, đồng thời xây dựng các công cụ chuyên dụng, mạnh mẽ cho lực lượng y tế.

Các điểm chính cần lưu ý

  • Độ chính xác vượt trội: GPT-5.5 Instant đã đạt được điểm tuân thủ hướng dẫn là 89,9% và giảm 71% các tuyên bố sức khỏe không chính xác trong vòng hai tháng.
  • Sự xác thực từ chuyên gia: Mô hình đã được tinh chỉnh thông qua việc xem xét 700.000 phản hồi bởi một mạng lưới toàn cầu gồm hơn 260 bác sĩ.
  • Hiệu quả ở quy mô lớn: Mô hình mới có hiệu suất tương đương với các mô hình "Thinking" nặng trên các tiêu chuẩn HealthBench nhưng với chi phí thấp hơn nhiều.