GPT-5.5 Instant від OpenAI перевершує лікарів у новому медичному бенчмарку

OpenAI офіційно підвищила рівень свого інтелекту в галузі охорони здоров'я, випустивши модель GPT-5.5 Instant, що стало важливою віхою у спеціалізованому ШІ-міркуванні. Це нове оновлення демонструє безпрецедентну здатність зрівнятися з висококласними «мислячими» (Thinking) моделями за точністю медичних відповідей, залишаючись при цьому значно економічнішим.

Перевершення відповідей, написаних лікарями

Найбільш вражаючим відкриттям з останніх даних OpenAI є те, що GPT-5.5 Instant почала перевершувати лікарів у певних стандартизованих оцінках. У власних бенчмарках OpenAI модель перевершила як GPT-4o, так і відповіді, написані лікарями, у п'яти критичних категоріях оцінювання. Найбільш примітно те, що модель досягла показника до 89,9 відсотка у виконанні інструкцій, що гарантує точні, структуровані та контекстуально релевантні відповіді на медичні запити.

Цей стрибок у продуктивності не є просто поступовим покращенням; він представляє собою масивне зниження рівня помилок. OpenAI повідомляє, що частота некоректних тверджень щодо здоров'я впала на 71 відсоток за останні два місяці, що свідчить про швидку стабілізацію здатності моделі до міркування у сферах з високими ставками.

Human-in-the-Loop: Масштаби медичної валідації

Розробка GPT-5.5 Instant не відбувалася у вакуумі. Щоб забезпечити клінічну безпеку та точність, OpenAI використала масштабну систему навчання з підкріпленням за участю людини (human-in-the-loop), що охоплювала глобальну мережу з понад 260 лікарів із 60 різних країн. Ця експертна група переглянула понад 700 000 відповідей моделі, щоб вдосконалити медичне міркування ШІ.

Використовуючи такі бенчмарки, як HealthBench та HealthBench Professional, OpenAI продемонструвала, що GPT-5.5 Instant може зрівнятися за продуктивністю з найдорожчими та найбільш ресурсомісткими «мислячими» (Thinking) моделями галузі. Що важливо, вона робить це за частку операційних витрат, роблячи медичний інтелект високого рівня доступнішим для широких мас.

Демократизація медичного інтелекту

Наслідки для загального ландшафту ШІ є глибокими, особливо враховуючи масштаби поточного використання. Оскільки понад 230 мільйонів людей щотижня використовують ChatGPT для запитів, пов'язаних зі здоров'ям — від інтерпретації складних результатів лабораторних досліджень до розв'язання складних питань страхування — точність цих моделей є питанням суспільної важливості.

OpenAI розділяє свою стратегію, щоб охопити обидва кінці спектра: широку громадськість та професійну спільноту. У той час як GPT-5.5 Instant розгортається для всіх безкоштовних користувачів ChatGPT (з урахуванням лімітів використання), компанія продовжує розширювати свої екосистеми професійного рівня через «ChatGPT for Clinicians» та «OpenAI for Healthcare». Цей подвійний підхід має на меті забезпечити миттєву користь для підготовки пацієнтів, одночасно створюючи надійні спеціалізовані інструменти для медичних працівників.

Основні висновки

  • Висока точність: GPT-5.5 Instant досягла показника дотримання інструкцій у 89,9% і за два місяці скоротила кількість некоректних тверджень щодо здоров'я на 71%.
  • Експертна перевірка: Модель була вдосконалена завдяки перегляду 700 000 відповідей глобальною мережею з понад 260 лікарів.
  • Ефективність у масштабі: Нова модель за продуктивністю на тестах HealthBench відповідає важким «Thinking» моделям, але за значно нижчою ціною.