مدل GPT-5.5 Instant شرکت OpenAI در بنچمارک جدید سلامت، از پزشکان پیشی گرفت
شرکت OpenAI با عرضه مدل GPT-5.5 Instant، هوش مراقبتهای بهداشتی خود را رسماً ارتقا داد که نقطه عطفی مهم در استدلال تخصصی هوش مصنوعی محسوب میشود. این ارتقای جدید، توانایی بیسابقهای را در برابری با مدلهای سطح بالای «Thinking» از نظر دقت پزشکی نشان میدهد، در حالی که همچنان بسیار مقرونبهصرفهتر است.
پیشی گرفتن از پاسخهای نوشتهشده توسط پزشکان
خیرهکنندهترین یافته از آخرین دادههای OpenAI این است که GPT-5.5 Instant در ارزیابیهای استاندارد خاص، شروع به عملکرد بهتر از پزشکان انسانی کرده است. در بنچمارکهای اختصاصی OpenAI، این مدل در پنج دسته ارزیابی حیاتی، هم از GPT-4o و هم از پاسخهای نوشتهشده توسط پزشکان پیشی گرفت. قابل توجهتر اینکه، این مدل در پیروی از دستورالعملها (instruction following) به امتیاز ۸۹.۹ درصد دست یافت که تضمین میکند پرسشهای پزشکی با راهنماییهای دقیق، ساختاریافته و مرتبط با متن پاسخ داده شوند.
این جهش در عملکرد صرفاً یک بهبود تدریجی نیست؛ بلکه نشاندهنده کاهش چشمگیر نرخ خطا است. OpenAI گزارش میدهد که فراوانی اظهارات نادرست در حوزه سلامت طی دو ماه گذشته ۷۱ درصد کاهش یافته است که نشاندهنده تثبیت سریع تواناییهای استدلالی مدل در حوزههای حساس و حیاتی است.
حضور انسان در چرخه (Human-in-the-Loop): مقیاس اعتبارسنجی پزشکی
توسعه GPT-5.5 Instant در خلاء صورت نگرفته است. برای اطمینان از ایمنی و دقت بالینی، OpenAI از یک سیستم تقویتشده عظیم مبتنی بر حضور انسان در چرخه (human-in-the-loop) استفاده کرد که شامل شبکه جهانیای از بیش از ۲۶۰ پزشک از ۶۰ کشور مختلف بود. این پنل متخصص، بیش از ۷۰۰,۰۰۰ پاسخ مدل را برای تنظیم دقیق (fine-tune) استدلال پزشکی هوش مصنوعی بازبینی کردند.
OpenAI با بهرهگیری از این بنچمارکها، مانند HealthBench و HealthBench Professional، نشان داده است که GPT-5.5 Instant میتواند با عملکرد گرانترین و سنگینترین مدلهای «Thinking» در این صنعت برابری کند. نکته حیاتی این است که این کار با کسری از هزینههای عملیاتی انجام میشود و هوش پزشکی سطح بالا را برای تودههای مردم در دسترستر میکند.
دموکراتیزه کردن هوش پزشکی
پیامدهای این موضوع برای چشمانداز گستردهتر هوش مصنوعی بسیار عمیق است، بهویژه با توجه به مقیاس استفاده فعلی. با توجه به اینکه بیش از ۲۳۰ میلیون نفر هفتگی از ChatGPT برای پرسشهای مرتبط با سلامت استفاده میکنند — از تفسیر نتایج پیچیده آزمایشگاه گرفته تا پیمایش در پیچیدگیهای بیمه — دقت این مدلها موضوعی با اهمیت عمومی است.
OpenAI در حال دو شاخه کردن استراتژی خود برای خدمترسانی به هر دو طیف است: عموم مردم و جامعه متخصصان. در حالی که GPT-5.5 Instant در حال عرضه برای تمامی کاربران رایگان ChatGPT است (با رعایت محدودیتهای استفاده)، این شرکت از طریق "ChatGPT for Clinicians" و "OpenAI for Healthcare" به گسترش اکوسیستمهای سطح حرفهای خود ادامه میدهد. هدف از این رویکرد دوگانه، فراهم کردن کاربرد فوری برای آمادهسازی بیماران و در عین حال، ساخت ابزارهای تخصصی و قدرتمند برای نیروی کار پزشکی است.
نکات کلیدی
- دقت برتر: GPT-5.5 Instant به امتیاز ۸۹.۹٪ در پیروی از دستورالعملها دست یافته و در عرض دو ماه، اظهارات نادرست پزشکی را تا ۷۱٪ کاهش داده است.
- تأیید کارشناسان: این مدل از طریق بازبینی ۷۰۰,۰۰۰ پاسخ توسط شبکهای جهانی متشکل از بیش از ۲۶۰ پزشک، اصلاح شده است.
- کارایی در مقیاس بالا: مدل جدید در بنچمارکهای HealthBench با عملکرد مدلهای سنگین "Thinking" برابری میکند، اما با هزینهای بسیار کمتر.