तुमचे LLM बरोबर होते, पण ते योग्य कारणाने बरोबर होते का?

Translated for your language. Read the original.

AI-assisted draft.

४ तासांपूर्वी2min read

तुमचे LLM बरोबर होते, पण ते योग्य कारणास्तव बरोबर होते का?

एखादे LLM क्लिनिकल जेनेटिक व्हेरिएंट्सचा (clinical genetic variants) अर्थ लावू शकते का, हे पाहण्यासाठी मी एक बेंचमार्क तयार केला.

सुरुवातीचे निकाल खराब दिसत होते. मॉडेलने ६० टक्के अचूकता (accuracy) दर्शवली. मॉडेल मध्यम दर्जाचे आणि वापरासाठी अयोग्य आहे, असा निष्कर्ष मी जवळपास काढलाच होता.

मी चुकत होतो.

जेव्हा मी अचूकता मोजणे थांबवून सुरक्षितता (safety) मोजण्यास सुरुवात केली, तेव्हाच मला खरी समज आली.

क्लिनिकल जेनेटिक्समध्ये, चुकीचे उत्तर धोकादायक ठरू शकते. यामध्ये दोन प्रकारचे दोष (errors) असतात:

सुरक्षित त्याग (Safe abstention): जेव्हा सत्य स्पष्ट असते, तेव्हा मॉडेल "अनिश्चित" (uncertain) असे म्हणते. हे सुरक्षित आहे कारण एखादा माणूस त्याची चौकशी करेल.
आत्मविश्वासी चूक (Confident error): मॉडेल अगदी उलट निर्णय घेते (उदा. आजार निर्माण करणाऱ्या व्हेरिएंटला "benign" म्हणणे). ही एक धोकादायक त्रुटी आहे.

माझ्या बेंचमार्कने दाखवले की मॉडेलमध्ये 'कॉन्फिडेंट एरर्स' शून्य होते. त्याने कधीही धोकादायक चूक केली नाही. पुरेसा पुरावा नसल्यास त्याने फक्त शांत राहणे पसंत केले.

जेव्हा मी साध्या अचूकतेचा निकष (accuracy metric) वापरला, तेव्हा मी एका सुरक्षित आणि अचूक मॉडेलला अपयशी ठरवले. समस्या माझ्या निकषात होती, मॉडेलमध्ये नाही.

जर तुम्ही वैद्यकीय, कायदा किंवा वित्त यांसारख्या उच्च-जोखीम असलेल्या क्षेत्रांसाठी बेंचमार्क तयार करत असाल, तर या नियमांचे पालन करा:

सुरक्षित त्रुटी आणि धोकादायक त्रुटी वेगळ्या करा. प्रामाणिकपणे दिलेले "मला माहित नाही" हे उत्तर आणि आत्मविश्वासाने सांगितलेले खोटे उत्तर कधीही एकाच गटात ठेवू नका.
तर्काचे ऑडिट करा. केवळ अचूकतेवरून मॉडेल पुरावे बनावट तयार करत आहे की तर्क पाळत आहे, हे समजत नाही.
तुमचे पुरावे वास्तविक ठेवा. तुमच्या चाचण्यांमध्ये बनावट डेटा वापरू नका. जर तुमच्या मूल्यमापनात बनावट डेटा वापरला गेला, तर मॉडेल 'हॅलुसिनेट' (hallucinates) करते की नाही, हे तुम्ही तपासू शकणार नाही.
तुमच्या स्वतःच्या विश्लेषणाचे कॅलिब्रेशन करा. लहान नमुना आकार (sample sizes) दिशाभूल करू शकतात. मोठ्या डेटाद्वारे पडताळणी केल्याशिवाय निष्कर्ष प्रकाशित करू नका.

उच्च-जोखीम असलेल्या क्षेत्रांमध्ये, अंदाज वर्तवणाऱ्या मॉडेलपेक्षा कधी थांबायचे हे माहित असलेले मॉडेल अधिक मौल्यवान असते.

कोड GitHub वर उपलब्ध आहे: gbadedata/clinvar-interpretation-benchmark.

संपूर्ण पोस्ट: https://dev.to/gbadedata/your-llm-got-the-variant-right-but-did-it-get-it-right-for-the-right-reason-1oc3

ऐच्छिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

तुमचे LLM बरोबर होते, पण ते योग्य कारणाने बरोबर होते का?

Continue reading

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

LLM असुरक्षितता १०१

Qwen 2.5 7B चा आत्मविश्वास अविश्वसनीय आहे