مدل GPT-5.5 Instant شرکت OpenAI در بنچمارک جدید سلامت، از پزشکان پیشی گرفت

شرکت OpenAI با عرضه مدل GPT-5.5 Instant، هوش مراقبت‌های بهداشتی خود را رسماً ارتقا داد که نقطه عطفی مهم در استدلال تخصصی هوش مصنوعی محسوب می‌شود. این ارتقای جدید، توانایی بی‌سابقه‌ای را در برابری با مدل‌های سطح بالای «Thinking» از نظر دقت پزشکی نشان می‌دهد، در حالی که همچنان بسیار مقرون‌به‌صرفه‌تر است.

پیشی گرفتن از پاسخ‌های نوشته‌شده توسط پزشکان

خیره‌کننده‌ترین یافته از آخرین داده‌های OpenAI این است که GPT-5.5 Instant در ارزیابی‌های استاندارد خاص، شروع به عملکرد بهتر از پزشکان انسانی کرده است. در بنچمارک‌های اختصاصی OpenAI، این مدل در پنج دسته ارزیابی حیاتی، هم از GPT-4o و هم از پاسخ‌های نوشته‌شده توسط پزشکان پیشی گرفت. قابل توجه‌تر اینکه، این مدل در پیروی از دستورالعمل‌ها (instruction following) به امتیاز ۸۹.۹ درصد دست یافت که تضمین می‌کند پرسش‌های پزشکی با راهنمایی‌های دقیق، ساختاریافته و مرتبط با متن پاسخ داده شوند.

این جهش در عملکرد صرفاً یک بهبود تدریجی نیست؛ بلکه نشان‌دهنده کاهش چشمگیر نرخ خطا است. OpenAI گزارش می‌دهد که فراوانی اظهارات نادرست در حوزه سلامت طی دو ماه گذشته ۷۱ درصد کاهش یافته است که نشان‌دهنده تثبیت سریع توانایی‌های استدلالی مدل در حوزه‌های حساس و حیاتی است.

حضور انسان در چرخه (Human-in-the-Loop): مقیاس اعتبارسنجی پزشکی

توسعه GPT-5.5 Instant در خلاء صورت نگرفته است. برای اطمینان از ایمنی و دقت بالینی، OpenAI از یک سیستم تقویت‌شده عظیم مبتنی بر حضور انسان در چرخه (human-in-the-loop) استفاده کرد که شامل شبکه جهانی‌ای از بیش از ۲۶۰ پزشک از ۶۰ کشور مختلف بود. این پنل متخصص، بیش از ۷۰۰,۰۰۰ پاسخ مدل را برای تنظیم دقیق (fine-tune) استدلال پزشکی هوش مصنوعی بازبینی کردند.

OpenAI با بهره‌گیری از این بنچمارک‌ها، مانند HealthBench و HealthBench Professional، نشان داده است که GPT-5.5 Instant می‌تواند با عملکرد گران‌ترین و سنگین‌ترین مدل‌های «Thinking» در این صنعت برابری کند. نکته حیاتی این است که این کار با کسری از هزینه‌های عملیاتی انجام می‌شود و هوش پزشکی سطح بالا را برای توده‌های مردم در دسترس‌تر می‌کند.

دموکراتیزه کردن هوش پزشکی

پیامدهای این موضوع برای چشم‌انداز گسترده‌تر هوش مصنوعی بسیار عمیق است، به‌ویژه با توجه به مقیاس استفاده فعلی. با توجه به اینکه بیش از ۲۳۰ میلیون نفر هفتگی از ChatGPT برای پرسش‌های مرتبط با سلامت استفاده می‌کنند — از تفسیر نتایج پیچیده آزمایشگاه گرفته تا پیمایش در پیچیدگی‌های بیمه — دقت این مدل‌ها موضوعی با اهمیت عمومی است.

OpenAI در حال دو شاخه کردن استراتژی خود برای خدمت‌رسانی به هر دو طیف است: عموم مردم و جامعه متخصصان. در حالی که GPT-5.5 Instant در حال عرضه برای تمامی کاربران رایگان ChatGPT است (با رعایت محدودیت‌های استفاده)، این شرکت از طریق "ChatGPT for Clinicians" و "OpenAI for Healthcare" به گسترش اکوسیستم‌های سطح حرفه‌ای خود ادامه می‌دهد. هدف از این رویکرد دوگانه، فراهم کردن کاربرد فوری برای آماده‌سازی بیماران و در عین حال، ساخت ابزارهای تخصصی و قدرتمند برای نیروی کار پزشکی است.

نکات کلیدی

  • دقت برتر: GPT-5.5 Instant به امتیاز ۸۹.۹٪ در پیروی از دستورالعمل‌ها دست یافته و در عرض دو ماه، اظهارات نادرست پزشکی را تا ۷۱٪ کاهش داده است.
  • تأیید کارشناسان: این مدل از طریق بازبینی ۷۰۰,۰۰۰ پاسخ توسط شبکه‌ای جهانی متشکل از بیش از ۲۶۰ پزشک، اصلاح شده است.
  • کارایی در مقیاس بالا: مدل جدید در بنچمارک‌های HealthBench با عملکرد مدل‌های سنگین "Thinking" برابری می‌کند، اما با هزینه‌ای بسیار کمتر.