مدل LLM شما درست میگفت، اما آیا به دلیل درستی درست بود؟
من یک بنچمارک ساختم تا ببینم آیا یک LLM میتواند واریانتهای ژنتیکی بالینی را تفسیر کند یا خیر.
نتایج اولیه بد به نظر میرسیدند. دقت مدل ۶۰ درصد بود. تقریباً به این نتیجه رسیده بودم که مدل معمولی و برای استفاده نامناسب است.
اشتباه میکردم.
بینش واقعی تنها زمانی پدیدار شد که اندازهگیری دقت را متوقف کردم و شروع به اندازهگیری ایمنی کردم.
در ژنتیک بالینی، یک پاسخ اشتباه میتواند خطرناک باشد. دو نوع خطا وجود دارد:
- خودداری ایمن (Safe abstention): مدل زمانی که حقیقت یک تشخیص قطعی است، میگوید «نامشخص». این حالت ایمن است زیرا یک انسان موضوع را بررسی خواهد کرد.
- خطای با اعتمادبهنفس (Confident error): مدل تشخیص معکوس میدهد (مثلاً یک واریانت بیماریزا را «بیخطر» یا benign قلمداد میکند). این یک شکست خطرناک است.
بنچمارک من نشان داد که مدل هیچ خطای با اعتمادبهنفسی نداشت. مدل هرگز مرتکب اشتباه خطرناکی نشد؛ بلکه صرفاً زمانی که شواهد کافی نداشت، سکوت را انتخاب کرد.
وقتی از یک معیار دقت ساده استفاده کردم، یک مدل ایمن و کالیبره شده را به عنوان یک شکست برچسب زدم. مشکل از معیار من بود، نه مدل.
اگر برای حوزههای حساس و پرخطر مانند پزشکی، حقوق یا امور مالی بنچمارک میسازید، این قوانین را دنبال کنید:
- شکستهای ایمن را از شکستهای خطرناک جدا کنید. هرگز یک «نمیدانمِ» صادقانه را در یک دسته با یک دروغِ با اعتمادبهنفس قرار ندهید.
- استدلال را بازرسی کنید. دقت به تنهایی نشان نمیدهد که آیا مدل در حال جعل شواهد است یا از منطق پیروی میکند.
- شواهد خود را واقعی نگه دارید. دادههای جعلی را وارد تستهای خود نکنید. اگر ارزیابی شما از دادههای جعلی استفاده کند، نمیتوانید بفهمید که آیا مدل دچار توهم (hallucination) میشود یا خیر.
- تحلیل خود را کالیبره کنید. حجم نمونههای کوچک میتواند فریبنده باشد. یافتهها را پیش از تأیید با دادههای بزرگتر منتشر نکنید.
در حوزههای حساس، مدلی که میداند چه زمانی باید متوقف شود، ارزشمندتر از مدلی است که حدس میزند.
کد در گیتهاب موجود است: gbadedata/clinvar-interpretation-benchmark.
انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi