𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗪𝗮𝘀 𝗥𝗶𝗴𝗵𝘁, 𝗕𝘂𝘁 𝗪𝗮𝘀 𝗜𝘁 𝗥𝗶𝗴𝗵𝘁 𝗳𝗼𝗿 𝘁𝗵𝗲 𝗥𝗶𝗴𝗵𝘁 𝗥𝗲𝗮𝘀𝗼𝗻?

ക്ലിനിക്കൽ ജനറ്റിക് വേരിയന്റുകളെ (clinical genetic variants) ഒരു LLM-ന് വ്യാഖ്യാനിക്കാൻ കഴിയുമോ എന്ന് പരിശോധിക്കാനായി ഞാൻ ഒരു ബെഞ്ച്മാർക്ക് നിർമ്മിച്ചു.

ആദ്യകാല ഫലങ്ങൾ മോശമായിരുന്നു. മോഡലിന് 60 ശതമാനം കൃത്യത (accuracy) മാത്രമേ ലഭിച്ചുള്ളൂ. മോഡൽ ഇടത്തരമാണെന്നും ഉപയോഗത്തിന് അനുയോജ്യമല്ലെന്നും ഞാൻ ഏകദേശം തീരുമാനിച്ചു കഴിഞ്ഞു.

ഞാൻ തെറ്റായിരുന്നു.

കൃത്യത അളക്കുന്നത് നിർത്തി സുരക്ഷ (safety) അളക്കാൻ തുടങ്ങിയപ്പോഴാണ് യഥാർത്ഥ ഉൾക്കാഴ്ച ലഭിച്ചത്.

ക്ലിനിക്കൽ ജനറ്റിക്സിൽ, തെറ്റായ ഒരു ഉത്തരം അപകടകരമായേക്കാം. രണ്ട് തരത്തിലുള്ള പിശകുകൾ ഉണ്ട്:

  • Safe abstention: സത്യം വ്യക്തമായി അറിയാവുന്ന ഒരു കാര്യത്തിൽ പോലും മോഡൽ "uncertain" (അനിശ്ചിതം) എന്ന് പറയുമ്പോൾ. ഇത് സുരക്ഷിതമാണ്, കാരണം ഒരു മനുഷ്യൻ ഇത് പരിശോധിക്കും.
  • Confident error: മോഡൽ നേരെ വിപരീതമായി ഉത്തരം നൽകുന്നു (ഉദാഹരണത്തിന്, രോഗമുണ്ടാക്കുന്ന ഒരു വേരിയന്റിനെ "benign" എന്ന് വിളിക്കുന്നു). ഇത് അപകടകരമായ ഒരു പരാജയമാണ്.

എന്റെ ബെഞ്ച്മാർക്ക് പരിശോധിച്ചപ്പോൾ മോഡലിന് 'confident errors' ഒന്നുമില്ലെന്ന് കണ്ടു. അത് ഒരിക്കലും അപകടകരമായ തെറ്റുകൾ വരുത്തിയില്ല. മതിയായ തെളിവുകൾ ഇല്ലാത്തപ്പോൾ അത് മൗനം പാലിക്കാൻ തീരുമാനിച്ചു എന്ന് മാത്രം.

ഒരു ലളിതമായ accuracy metric ഉപയോഗിച്ചപ്പോൾ, സുരക്ഷിതവും കൃത്യതയോടെ പ്രവർത്തിക്കുന്നതുമായ ഒരു മോഡലിനെ ഞാൻ പരാജയമായി മുദ്രകുത്തി. എന്റെ അളവുകോലിലായിരുന്നു പ്രശ്നം, മോഡലിലല്ല.

വൈദ്യശാസ്ത്രം, നിയമം അല്ലെങ്കിൽ ധനകാര്യം പോലുള്ള ഉയർന്ന ഉത്തരവാദിത്തമുള്ള മേഖലകൾക്കായി നിങ്ങൾ ബെഞ്ച്മാർക്കുകൾ നിർമ്മിക്കുകയാണെങ്കിൽ, ഈ നിയമങ്ങൾ പാലിക്കുക:

  • സുരക്ഷിതമായ പരാജയങ്ങളെ അപകടകരമായവയിൽ നിന്ന് വേർതിരിക്കുക. സത്യസന്ധമായ ഒരു "എനിക്കറിയില്ല" എന്ന മറുപടിയെ ആത്മവിശ്വാസത്തോടെയുള്ള ഒരു കള്ളത്തോട് ഒരിക്കലും താരതമ്യം ചെയ്യരുത്.
  • യുക്തി പരിശോധിക്കുക (Audit the reasoning). ഒരു മോഡൽ തെളിവുകൾ കെട്ടിച്ചമയ്ക്കുകയാണോ അതോ യുക്തിപൂർവ്വം പ്രവർത്തിക്കുകയാണോ എന്ന് കൃത്യത (accuracy) മാത്രം നോക്കിയാൽ മനസ്സിലാകില്ല.
  • തെളിവുകൾ യഥാർത്ഥമായിരിക്കട്ടെ. നിങ്ങളുടെ പരിശോധനകളിൽ വ്യാജ ഡാറ്റ ഉപയോഗിക്കരുത്. നിങ്ങളുടെ മൂല്യനിർണ്ണയത്തിൽ വ്യാജ ഡാറ്റ ഉപയോഗിക്കുകയാണെങ്കിൽ, മോഡൽ ഹാളുസിനേറ്റ് (hallucinates) ചെയ്യുന്നുണ്ടോ എന്ന് നിങ്ങൾക്ക് പരിശോധിക്കാൻ കഴിയില്ല.
  • നിങ്ങളുടെ വിശകലനം കൃത്യമാണെന്ന് ഉറപ്പുവരുത്തുക. ചെറിയ സാമ്പിൾ സൈസുകൾ തെറ്റായ ഫലങ്ങൾ നൽകിയേക്കാം. വലിയ ഡാറ്റ ഉപയോഗിച്ച് പരിശോധിച്ചതിന് ശേഷം മാത്രം കണ്ടെത്തലുകൾ പ്രസിദ്ധീകരിക്കുക.

ഉയർന്ന ഉത്തരവാദിത്തമുള്ള മേഖലകളിൽ, ഊഹങ്ങൾ പറയുന്നതിനേക്കാൾ വിലപ്പെട്ടത് എപ്പോൾ നിർത്തണമെന്ന് അറിയുന്ന ഒരു മോഡലാണ്.

കോഡ് GitHub-ൽ ലഭ്യമാണ്: gbadedata/clinvar-interpretation-benchmark.

പൂർണ്ണരൂപം: https://dev.to/gbadedata/your-llm-got-the-variant-right-but-did-it-get-it-right-for-the-right-reason-1oc3

ഓപ്ഷണൽ ലേണിംഗ് കമ്മ്യൂണിറ്റി: https://t.me/GyaanSetuAi