तुमचे LLM बरोबर होते, पण ते योग्य कारणास्तव बरोबर होते का?

एखादे LLM क्लिनिकल जेनेटिक व्हेरिएंट्सचा (clinical genetic variants) अर्थ लावू शकते का, हे पाहण्यासाठी मी एक बेंचमार्क तयार केला.

सुरुवातीचे निकाल खराब दिसत होते. मॉडेलने ६० टक्के अचूकता (accuracy) दर्शवली. मॉडेल मध्यम दर्जाचे आणि वापरासाठी अयोग्य आहे, असा निष्कर्ष मी जवळपास काढलाच होता.

मी चुकत होतो.

जेव्हा मी अचूकता मोजणे थांबवून सुरक्षितता (safety) मोजण्यास सुरुवात केली, तेव्हाच मला खरी समज आली.

क्लिनिकल जेनेटिक्समध्ये, चुकीचे उत्तर धोकादायक ठरू शकते. यामध्ये दोन प्रकारचे दोष (errors) असतात:

  • सुरक्षित त्याग (Safe abstention): जेव्हा सत्य स्पष्ट असते, तेव्हा मॉडेल "अनिश्चित" (uncertain) असे म्हणते. हे सुरक्षित आहे कारण एखादा माणूस त्याची चौकशी करेल.
  • आत्मविश्वासी चूक (Confident error): मॉडेल अगदी उलट निर्णय घेते (उदा. आजार निर्माण करणाऱ्या व्हेरिएंटला "benign" म्हणणे). ही एक धोकादायक त्रुटी आहे.

माझ्या बेंचमार्कने दाखवले की मॉडेलमध्ये 'कॉन्फिडेंट एरर्स' शून्य होते. त्याने कधीही धोकादायक चूक केली नाही. पुरेसा पुरावा नसल्यास त्याने फक्त शांत राहणे पसंत केले.

जेव्हा मी साध्या अचूकतेचा निकष (accuracy metric) वापरला, तेव्हा मी एका सुरक्षित आणि अचूक मॉडेलला अपयशी ठरवले. समस्या माझ्या निकषात होती, मॉडेलमध्ये नाही.

जर तुम्ही वैद्यकीय, कायदा किंवा वित्त यांसारख्या उच्च-जोखीम असलेल्या क्षेत्रांसाठी बेंचमार्क तयार करत असाल, तर या नियमांचे पालन करा:

  • सुरक्षित त्रुटी आणि धोकादायक त्रुटी वेगळ्या करा. प्रामाणिकपणे दिलेले "मला माहित नाही" हे उत्तर आणि आत्मविश्वासाने सांगितलेले खोटे उत्तर कधीही एकाच गटात ठेवू नका.
  • तर्काचे ऑडिट करा. केवळ अचूकतेवरून मॉडेल पुरावे बनावट तयार करत आहे की तर्क पाळत आहे, हे समजत नाही.
  • तुमचे पुरावे वास्तविक ठेवा. तुमच्या चाचण्यांमध्ये बनावट डेटा वापरू नका. जर तुमच्या मूल्यमापनात बनावट डेटा वापरला गेला, तर मॉडेल 'हॅलुसिनेट' (hallucinates) करते की नाही, हे तुम्ही तपासू शकणार नाही.
  • तुमच्या स्वतःच्या विश्लेषणाचे कॅलिब्रेशन करा. लहान नमुना आकार (sample sizes) दिशाभूल करू शकतात. मोठ्या डेटाद्वारे पडताळणी केल्याशिवाय निष्कर्ष प्रकाशित करू नका.

उच्च-जोखीम असलेल्या क्षेत्रांमध्ये, अंदाज वर्तवणाऱ्या मॉडेलपेक्षा कधी थांबायचे हे माहित असलेले मॉडेल अधिक मौल्यवान असते.

कोड GitHub वर उपलब्ध आहे: gbadedata/clinvar-interpretation-benchmark.

संपूर्ण पोस्ट: https://dev.to/gbadedata/your-llm-got-the-variant-right-but-did-it-get-it-right-for-the-right-reason-1oc3

ऐच्छिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi