𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗪𝗮𝘀 𝗥𝗶𝗴𝗵𝘁, 𝗕𝘂𝘁 𝗪𝗮𝘀 𝗜𝘁 𝗥𝗶𝗴𝗵𝘁 𝗳𝗼𝗿 𝘁𝗵𝗲 𝗥𝗶𝗴𝗵𝘁 𝗥𝗲𝗮𝘀𝗼𝗻?

క్లినికల్ జెనెటిక్ వేరియంట్‌లను (clinical genetic variants) ఒక LLM అర్థం చేసుకోగలదా లేదా అని చూడటానికి నేను ఒక బెంచ్‌మార్క్‌ను రూపొందించాను.

ప్రారంభ ఫలితాలు అధ్వాన్నంగా ఉన్నాయి. మోడల్ 60 శాతం ఖచ్చితత్వాన్ని (accuracy) చూపింది. ఆ మోడల్ సామాన్యమైనదని మరియు ఉపయోగించడానికి పనికిరాదని నేను దాదాపు నిర్ణయించుకున్నాను.

నేను పొరబడ్డాను.

నేను ఖచ్చితత్వాన్ని (accuracy) కొలవడం ఆపివేసి, భద్రతను (safety) కొలవడం ప్రారంభించినప్పుడు మాత్రమే అసలైన విషయం అర్థమైంది.

క్లినికల్ జెనెటిక్స్‌లో, తప్పుడు సమాధానం ప్రమాదకరంగా మారవచ్చు. ఇందులో రెండు రకాల లోపాలు ఉంటాయి:

  • సురక్షితమైన నివారణ (Safe abstention): వాస్తవానికి ఒక స్పష్టమైన సమాధానం ఉన్నప్పుడు, మోడల్ "అనిశ్చితం" (uncertain) అని చెబుతుంది. ఇది సురక్షితం, ఎందుకంటే దీనిని మనిషి పరిశోధిస్తారు.
  • నమ్మకంతో కూడిన తప్పు (Confident error): మోడల్ దానికి విరుద్ధమైన సమాధానం చెబుతుంది (ఉదాహరణకు, వ్యాధి కలిగించే వేరియంట్‌ను "benign" అని పిలవడం). ఇది ప్రమాదకరమైన వైఫల్యం.

నా బెంచ్‌మార్క్ ప్రకారం, మోడల్‌లో 'నమ్మకంతో కూడిన తప్పులు' (confident errors) ఏవీ లేవు. అది ఎప్పుడూ ప్రమాదకరమైన తప్పు చేయలేదు. తగిన ఆధారాలు లేనప్పుడు అది మౌనంగా ఉండటానికే మొగ్గు చూపింది.

నేను కేవలం ఖచ్చితత్వ మెట్రిక్ (accuracy metric) మాత్రమే ఉపయోగించినప్పుడు, సురక్షితమైన మరియు చక్కగా పనిచేసే మోడల్‌ను వైఫల్యంగా పరిగణించాను. సమస్య మోడల్‌లో లేదు, నా మెట్రిక్‌లోనే ఉంది.

మీరు వైద్యం, చట్టం లేదా ఫైనాన్స్ వంటి అత్యంత కీలకమైన రంగాల కోసం బెంచ్‌మార్క్‌లను రూపొందిస్తుంటే, ఈ నియమాలను పాటించండి:

  • సురక్షితమైన వైఫల్యాలను, ప్రమాదకరమైన వాటి నుండి వేరు చేయండి. నిజాయితీగా చెప్పే "నాకు తెలియదు" అనే సమాధానాన్ని, నమ్మకంతో చెప్పే అబద్ధంతో ఎప్పుడూ పోల్చకండి.
  • తర్కాన్ని (reasoning) తనిఖీ చేయండి. మోడల్ ఆధారాలను సృష్టిస్తుందా లేదా తర్కాన్ని అనుసరిస్తుందా అనేది కేవలం ఖచ్చితత్వం (accuracy) ద్వారా తెలియదు.
  • ఆధారాలను వాస్తవికంగా ఉంచండి. మీ పరీక్షల్లో నకిలీ డేటాను ఉపయోగించకండి. మీ మూల్యాంకనం (evaluation) నకిలీ డేటాను ఉపయోగిస్తే, మోడల్ హాలూసినేట్ (hallucinates) అవుతుందో లేదో మీరు పరీక్షించలేరు.
  • మీ విశ్లేషణను సరిచూసుకోండి (Calibrate). తక్కువ నమూనాల (small sample sizes) వల్ల తప్పుడు ఫలితాలు రావచ్చు. పెద్ద మొత్తంలో డేటాతో ధృవీకరించుకున్న తర్వాతే ఫలితాలను ప్రచురించండి.

అత్యంత కీలకమైన రంగాలలో, ఊహించి చెప్పే మోడల్ కంటే, ఎప్పుడు ఆగాలో తెలిసిన మోడల్ చాలా విలువైనది.

కోడ్ GitHubలో ఉంది: gbadedata/clinvar-interpretation-benchmark.

పూర్తి పోస్ట్: https://dev.to/gbadedata/your-llm-got-the-variant-right-but-did-it-get-it-right-for-the-right-reason-1oc3

ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi