OpenAI کا GPT-5.5 Instant نئے ہیلتھ بینچ مارک میں ڈاکٹروں سے بہتر کارکردگی دکھاتا ہے
OpenAI نے GPT-5.5 Instant ماڈل کے آغاز کے ساتھ اپنی ہیلتھ کیئر انٹیلی جنس کو باضابطہ طور پر ایک نئی سطح پر پہنچا دیا ہے، جو کہ مخصوص AI ریژوننگ میں ایک اہم سنگ میل ہے۔ یہ نیا اپ گریڈ طبی درستگی کے معاملے میں اعلیٰ درجے کے "Thinking" ماڈلز کا مقابلہ کرنے کی ایک بے مثال صلاحیت کا مظاہرہ کرتا ہے، جبکہ یہ بہت زیادہ کفایتی بھی ہے۔
طبیبوں کے تحریر کردہ جوابات سے آگے نکلنا
OpenAI کے تازہ ترین ڈیٹا سے سب سے حیران کن انکشاف یہ ہے کہ GPT-5.5 Instant نے مخصوص معیاری جانچ پڑتال میں انسانی طبیبوں سے بہتر کارکردگی دکھانا شروع کر دی ہے۔ OpenAI کے اپنے بینچ مارکس میں، اس ماڈل نے پانچ اہم جانچ کے زمروں میں GPT-4o اور طبیبوں کے تحریر کردہ جوابات، دونوں کو پیچھے چھوڑ دیا۔ سب سے نمایاں بات یہ ہے کہ ماڈل نے ہدایات پر عمل کرنے (instruction following) میں 89.9 فیصد تک اسکور حاصل کیا، جس سے یہ یقینی بنتا ہے کہ طبی سوالات کے جوابات درست، منظم اور سیاق و سباق کے مطابق رہنمائی کے ساتھ دیے جائیں۔
کارکردگی میں یہ اضافہ محض معمولی نہیں ہے؛ یہ غلطیوں کی شرح میں ایک بڑی کمی کی نمائندگی کرتا ہے۔ OpenAI کی رپورٹ کے مطابق، گزشتہ دو ماہ کے دوران غلط طبی بیانات کی تعدد میں 71 فیصد کمی آئی ہے، جو کہ حساس شعبوں میں ماڈل کی ریژوننگ کی صلاحیتوں کے تیزی سے مستحکم ہونے کا اشارہ ہے۔
Human-in-the-Loop: طبی تصدیق کا پیمانہ
GPT-5.5 Instant کی ترقی کسی خالی جگہ میں حاصل نہیں کی گئی۔ طبی حفاظت اور درستگی کو یقینی بنانے کے لیے، OpenAI نے ایک وسیع human-in-the-loop ری انفورسمنٹ سسٹم کا استعمال کیا جس میں 60 مختلف ممالک کے 260 سے زائد ڈاکٹروں کا عالمی نیٹ ورک شامل تھا۔ اس ماہر پینل نے AI کی طبی ریژوننگ کو بہتر بنانے کے لیے ماڈل کے 700,000 سے زیادہ جوابات کا جائزہ لیا۔
HealthBench اور HealthBench Professional جیسے بینچ مارکس کا استعمال کرتے ہوئے، OpenAI نے ثابت کیا ہے کہ GPT-5.5 Instant صنعت کے مہنگے ترین اور زیادہ کمپیوٹیشن والے "Thinking" ماڈلز کی کارکردگی کا مقابلہ کر سکتا ہے۔ اہم بات یہ ہے کہ یہ کام بہت کم آپریشنل لاگت پر انجام دیتا ہے، جس سے اعلیٰ درجے کی طبی ذہانت عام لوگوں کے لیے زیادہ قابل رسائی ہو جاتی ہے۔
طبی ذہانت کو عام کرنا
وسیع تر AI منظرنامے کے لیے اس کے اثرات بہت گہرے ہیں، خاص طور پر موجودہ استعمال کے پیمانے کو مدنظر رکھتے ہوئے ۔ چونکہ 23 کروڑ سے زیادہ لوگ ہفتہ وار بنیادوں پر صحت سے متعلقہ پوچھ گچھ کے لیے ChatGPT کا استعمال کر رہے ہیں—جس میں پیچیدہ لیب نتائج کی تشریح سے لے کر انشورنس کی پیچیدگیوں کو سمجھنے تک سب شامل ہے—اس لیے ان ماڈلز کی درستگی عوامی اہمیت کا معاملہ ہے۔
OpenAI اپنی حکمت عملی کو دو حصوں میں تقسیم کر رہا ہے تاکہ وہ دونوں اطراف کی خدمت کر سکے: عام عوام اور پیشہ ورانہ برادری۔ جبکہ GPT-5.5 Instant تمام مفت ChatGPT صارفین کے لیے فراہم کیا جا رہا ہے (استعمال کی حدود کے تابع)، کمپنی "ChatGPT for Clinicians" اور "OpenAI for Healthcare" کے ذریعے اپنے پیشہ ورانہ معیار کے ایکو سسٹم کو وسعت دے رہی ہے۔ اس دوہرے انداز کا مقصد مریضوں کی تیاری کے لیے فوری افادیت فراہم کرنا ہے جبکہ طبی افرادی قوت کے لیے مضبوط اور مخصوص ٹولز تیار کرنا ہے۔
اہم نکات
- اعلیٰ درستی: GPT-5.5 Instant نے ہدایات پر عمل کرنے کا 89.9% اسکور حاصل کیا ہے اور دو ماہ میں غلط طبی بیانات میں 71% کمی کی ہے۔
- ماہرین کی تصدیق: اس ماڈل کو 260 سے زائد ڈاکٹروں کے عالمی نیٹ ورک کے ذریعے 700,000 جوابات کے جائزے کے ذریعے بہتر بنایا گیا ہے۔
- بڑے پیمانے پر کارکردگی: نیا ماڈل HealthBench بینچ مارکس پر بھاری "Thinking" ماڈلز کی کارکردگی کے برابر ہے لیکن اس کی لاگت بہت کم ہے۔