𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗪𝗮𝘀 𝗥𝗶𝗴𝗵𝘁, 𝗕𝘂𝘁 𝗪𝗮𝘀 𝗜𝘁 𝗥𝗶𝗴𝗵𝘁 𝗳𝗼𝗿 𝘁𝗵𝗲 𝗥𝗶𝗴𝗵𝘁 𝗥𝗲𝗮𝘀𝗼𝗻?

Translated for your language. Read the original.

AI-assisted draft.

4 గంటల క్రితం2min read

క్లినికల్ జెనెటిక్ వేరియంట్‌లను (clinical genetic variants) ఒక LLM అర్థం చేసుకోగలదా లేదా అని చూడటానికి నేను ఒక బెంచ్‌మార్క్‌ను రూపొందించాను.

ప్రారంభ ఫలితాలు అధ్వాన్నంగా ఉన్నాయి. మోడల్ 60 శాతం ఖచ్చితత్వాన్ని (accuracy) చూపింది. ఆ మోడల్ సామాన్యమైనదని మరియు ఉపయోగించడానికి పనికిరాదని నేను దాదాపు నిర్ణయించుకున్నాను.

నేను పొరబడ్డాను.

నేను ఖచ్చితత్వాన్ని (accuracy) కొలవడం ఆపివేసి, భద్రతను (safety) కొలవడం ప్రారంభించినప్పుడు మాత్రమే అసలైన విషయం అర్థమైంది.

క్లినికల్ జెనెటిక్స్‌లో, తప్పుడు సమాధానం ప్రమాదకరంగా మారవచ్చు. ఇందులో రెండు రకాల లోపాలు ఉంటాయి:

సురక్షితమైన నివారణ (Safe abstention): వాస్తవానికి ఒక స్పష్టమైన సమాధానం ఉన్నప్పుడు, మోడల్ "అనిశ్చితం" (uncertain) అని చెబుతుంది. ఇది సురక్షితం, ఎందుకంటే దీనిని మనిషి పరిశోధిస్తారు.
నమ్మకంతో కూడిన తప్పు (Confident error): మోడల్ దానికి విరుద్ధమైన సమాధానం చెబుతుంది (ఉదాహరణకు, వ్యాధి కలిగించే వేరియంట్‌ను "benign" అని పిలవడం). ఇది ప్రమాదకరమైన వైఫల్యం.

నా బెంచ్‌మార్క్ ప్రకారం, మోడల్‌లో 'నమ్మకంతో కూడిన తప్పులు' (confident errors) ఏవీ లేవు. అది ఎప్పుడూ ప్రమాదకరమైన తప్పు చేయలేదు. తగిన ఆధారాలు లేనప్పుడు అది మౌనంగా ఉండటానికే మొగ్గు చూపింది.

నేను కేవలం ఖచ్చితత్వ మెట్రిక్ (accuracy metric) మాత్రమే ఉపయోగించినప్పుడు, సురక్షితమైన మరియు చక్కగా పనిచేసే మోడల్‌ను వైఫల్యంగా పరిగణించాను. సమస్య మోడల్‌లో లేదు, నా మెట్రిక్‌లోనే ఉంది.

మీరు వైద్యం, చట్టం లేదా ఫైనాన్స్ వంటి అత్యంత కీలకమైన రంగాల కోసం బెంచ్‌మార్క్‌లను రూపొందిస్తుంటే, ఈ నియమాలను పాటించండి:

సురక్షితమైన వైఫల్యాలను, ప్రమాదకరమైన వాటి నుండి వేరు చేయండి. నిజాయితీగా చెప్పే "నాకు తెలియదు" అనే సమాధానాన్ని, నమ్మకంతో చెప్పే అబద్ధంతో ఎప్పుడూ పోల్చకండి.
తర్కాన్ని (reasoning) తనిఖీ చేయండి. మోడల్ ఆధారాలను సృష్టిస్తుందా లేదా తర్కాన్ని అనుసరిస్తుందా అనేది కేవలం ఖచ్చితత్వం (accuracy) ద్వారా తెలియదు.
ఆధారాలను వాస్తవికంగా ఉంచండి. మీ పరీక్షల్లో నకిలీ డేటాను ఉపయోగించకండి. మీ మూల్యాంకనం (evaluation) నకిలీ డేటాను ఉపయోగిస్తే, మోడల్ హాలూసినేట్ (hallucinates) అవుతుందో లేదో మీరు పరీక్షించలేరు.
మీ విశ్లేషణను సరిచూసుకోండి (Calibrate). తక్కువ నమూనాల (small sample sizes) వల్ల తప్పుడు ఫలితాలు రావచ్చు. పెద్ద మొత్తంలో డేటాతో ధృవీకరించుకున్న తర్వాతే ఫలితాలను ప్రచురించండి.

అత్యంత కీలకమైన రంగాలలో, ఊహించి చెప్పే మోడల్ కంటే, ఎప్పుడు ఆగాలో తెలిసిన మోడల్ చాలా విలువైనది.

కోడ్ GitHubలో ఉంది: gbadedata/clinvar-interpretation-benchmark.

పూర్తి పోస్ట్: https://dev.to/gbadedata/your-llm-got-the-variant-right-but-did-it-get-it-right-for-the-right-reason-1oc3

ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi

𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗪𝗮𝘀 𝗥𝗶𝗴𝗵𝘁, 𝗕𝘂𝘁 𝗪𝗮𝘀 𝗜𝘁 𝗥𝗶𝗴𝗵𝘁 𝗳𝗼𝗿 𝘁𝗵𝗲 𝗥𝗶𝗴𝗵𝘁 𝗥𝗲𝗮𝘀𝗼𝗻?

Continue reading

డొమైన్-స్పెసిఫిక్ LLM ఎవాల్యుయేషన్ సెట్‌లను రూపొందించడం

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

LLM బెంచ్‌మార్క్ అబద్ధం

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲