مدل زبانی شما درست بود، اما آیا به دلیل درستی درست بود؟

Translated for your language. Read the original.

AI-assisted draft.

۴ ساعت پیش2min read

مدل LLM شما درست می‌گفت، اما آیا به دلیل درستی درست بود؟

من یک بنچمارک ساختم تا ببینم آیا یک LLM می‌تواند واریانت‌های ژنتیکی بالینی را تفسیر کند یا خیر.

نتایج اولیه بد به نظر می‌رسیدند. دقت مدل ۶۰ درصد بود. تقریباً به این نتیجه رسیده بودم که مدل معمولی و برای استفاده نامناسب است.

اشتباه می‌کردم.

بینش واقعی تنها زمانی پدیدار شد که اندازه‌گیری دقت را متوقف کردم و شروع به اندازه‌گیری ایمنی کردم.

در ژنتیک بالینی، یک پاسخ اشتباه می‌تواند خطرناک باشد. دو نوع خطا وجود دارد:

خودداری ایمن (Safe abstention): مدل زمانی که حقیقت یک تشخیص قطعی است، می‌گوید «نامشخص». این حالت ایمن است زیرا یک انسان موضوع را بررسی خواهد کرد.
خطای با اعتمادبه‌نفس (Confident error): مدل تشخیص معکوس می‌دهد (مثلاً یک واریانت بیماری‌زا را «بی‌خطر» یا benign قلمداد می‌کند). این یک شکست خطرناک است.

بنچمارک من نشان داد که مدل هیچ خطای با اعتمادبه‌نفسی نداشت. مدل هرگز مرتکب اشتباه خطرناکی نشد؛ بلکه صرفاً زمانی که شواهد کافی نداشت، سکوت را انتخاب کرد.

وقتی از یک معیار دقت ساده استفاده کردم، یک مدل ایمن و کالیبره شده را به عنوان یک شکست برچسب زدم. مشکل از معیار من بود، نه مدل.

اگر برای حوزه‌های حساس و پرخطر مانند پزشکی، حقوق یا امور مالی بنچمارک می‌سازید، این قوانین را دنبال کنید:

شکست‌های ایمن را از شکست‌های خطرناک جدا کنید. هرگز یک «نمی‌دانمِ» صادقانه را در یک دسته با یک دروغِ با اعتمادبه‌نفس قرار ندهید.
استدلال را بازرسی کنید. دقت به تنهایی نشان نمی‌دهد که آیا مدل در حال جعل شواهد است یا از منطق پیروی می‌کند.
شواهد خود را واقعی نگه دارید. داده‌های جعلی را وارد تست‌های خود نکنید. اگر ارزیابی شما از داده‌های جعلی استفاده کند، نمی‌توانید بفهمید که آیا مدل دچار توهم (hallucination) می‌شود یا خیر.
تحلیل خود را کالیبره کنید. حجم نمونه‌های کوچک می‌تواند فریبنده باشد. یافته‌ها را پیش از تأیید با داده‌های بزرگ‌تر منتشر نکنید.

در حوزه‌های حساس، مدلی که می‌داند چه زمانی باید متوقف شود، ارزشمندتر از مدلی است که حدس می‌زند.

کد در گیت‌هاب موجود است: gbadedata/clinvar-interpretation-benchmark.

پست کامل: https://dev.to/gbadedata/your-llm-got-the-variant-right-but-did-it-get-it-right-for-the-right-reason-1oc3

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi

مدل زبانی شما درست بود، اما آیا به دلیل درستی درست بود؟

Continue reading

ساخت مجموعه‌های ارزیابی LLM مختص به حوزه

جعل هم‌سویی در LLMها

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

میزان اطمینان Qwen 2.5 7B غیرقابل اعتماد است