നിങ്ങളുടെ LLM ശരിയായിരുന്നു, പക്ഷേ അത് ശരിയായ കാരണത്താലാണോ?

Translated for your language. Read the original.

AI-assisted draft.

4 മണിക്കൂർ മുമ്പ്2min read

𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗪𝗮𝘀 𝗥𝗶𝗴𝗵𝘁, 𝗕𝘂𝘁 𝗪𝗮𝘀 𝗜𝘁 𝗥𝗶𝗴𝗵𝘁 𝗳𝗼𝗿 𝘁𝗵𝗲 𝗥𝗶𝗴𝗵𝘁 𝗥𝗲𝗮𝘀𝗼𝗻?

ക്ലിനിക്കൽ ജനറ്റിക് വേരിയന്റുകളെ (clinical genetic variants) ഒരു LLM-ന് വ്യാഖ്യാനിക്കാൻ കഴിയുമോ എന്ന് പരിശോധിക്കാനായി ഞാൻ ഒരു ബെഞ്ച്മാർക്ക് നിർമ്മിച്ചു.

ആദ്യകാല ഫലങ്ങൾ മോശമായിരുന്നു. മോഡലിന് 60 ശതമാനം കൃത്യത (accuracy) മാത്രമേ ലഭിച്ചുള്ളൂ. മോഡൽ ഇടത്തരമാണെന്നും ഉപയോഗത്തിന് അനുയോജ്യമല്ലെന്നും ഞാൻ ഏകദേശം തീരുമാനിച്ചു കഴിഞ്ഞു.

ഞാൻ തെറ്റായിരുന്നു.

കൃത്യത അളക്കുന്നത് നിർത്തി സുരക്ഷ (safety) അളക്കാൻ തുടങ്ങിയപ്പോഴാണ് യഥാർത്ഥ ഉൾക്കാഴ്ച ലഭിച്ചത്.

ക്ലിനിക്കൽ ജനറ്റിക്സിൽ, തെറ്റായ ഒരു ഉത്തരം അപകടകരമായേക്കാം. രണ്ട് തരത്തിലുള്ള പിശകുകൾ ഉണ്ട്:

Safe abstention: സത്യം വ്യക്തമായി അറിയാവുന്ന ഒരു കാര്യത്തിൽ പോലും മോഡൽ "uncertain" (അനിശ്ചിതം) എന്ന് പറയുമ്പോൾ. ഇത് സുരക്ഷിതമാണ്, കാരണം ഒരു മനുഷ്യൻ ഇത് പരിശോധിക്കും.
Confident error: മോഡൽ നേരെ വിപരീതമായി ഉത്തരം നൽകുന്നു (ഉദാഹരണത്തിന്, രോഗമുണ്ടാക്കുന്ന ഒരു വേരിയന്റിനെ "benign" എന്ന് വിളിക്കുന്നു). ഇത് അപകടകരമായ ഒരു പരാജയമാണ്.

എന്റെ ബെഞ്ച്മാർക്ക് പരിശോധിച്ചപ്പോൾ മോഡലിന് 'confident errors' ഒന്നുമില്ലെന്ന് കണ്ടു. അത് ഒരിക്കലും അപകടകരമായ തെറ്റുകൾ വരുത്തിയില്ല. മതിയായ തെളിവുകൾ ഇല്ലാത്തപ്പോൾ അത് മൗനം പാലിക്കാൻ തീരുമാനിച്ചു എന്ന് മാത്രം.

ഒരു ലളിതമായ accuracy metric ഉപയോഗിച്ചപ്പോൾ, സുരക്ഷിതവും കൃത്യതയോടെ പ്രവർത്തിക്കുന്നതുമായ ഒരു മോഡലിനെ ഞാൻ പരാജയമായി മുദ്രകുത്തി. എന്റെ അളവുകോലിലായിരുന്നു പ്രശ്നം, മോഡലിലല്ല.

വൈദ്യശാസ്ത്രം, നിയമം അല്ലെങ്കിൽ ധനകാര്യം പോലുള്ള ഉയർന്ന ഉത്തരവാദിത്തമുള്ള മേഖലകൾക്കായി നിങ്ങൾ ബെഞ്ച്മാർക്കുകൾ നിർമ്മിക്കുകയാണെങ്കിൽ, ഈ നിയമങ്ങൾ പാലിക്കുക:

സുരക്ഷിതമായ പരാജയങ്ങളെ അപകടകരമായവയിൽ നിന്ന് വേർതിരിക്കുക. സത്യസന്ധമായ ഒരു "എനിക്കറിയില്ല" എന്ന മറുപടിയെ ആത്മവിശ്വാസത്തോടെയുള്ള ഒരു കള്ളത്തോട് ഒരിക്കലും താരതമ്യം ചെയ്യരുത്.
യുക്തി പരിശോധിക്കുക (Audit the reasoning). ഒരു മോഡൽ തെളിവുകൾ കെട്ടിച്ചമയ്ക്കുകയാണോ അതോ യുക്തിപൂർവ്വം പ്രവർത്തിക്കുകയാണോ എന്ന് കൃത്യത (accuracy) മാത്രം നോക്കിയാൽ മനസ്സിലാകില്ല.
തെളിവുകൾ യഥാർത്ഥമായിരിക്കട്ടെ. നിങ്ങളുടെ പരിശോധനകളിൽ വ്യാജ ഡാറ്റ ഉപയോഗിക്കരുത്. നിങ്ങളുടെ മൂല്യനിർണ്ണയത്തിൽ വ്യാജ ഡാറ്റ ഉപയോഗിക്കുകയാണെങ്കിൽ, മോഡൽ ഹാളുസിനേറ്റ് (hallucinates) ചെയ്യുന്നുണ്ടോ എന്ന് നിങ്ങൾക്ക് പരിശോധിക്കാൻ കഴിയില്ല.
നിങ്ങളുടെ വിശകലനം കൃത്യമാണെന്ന് ഉറപ്പുവരുത്തുക. ചെറിയ സാമ്പിൾ സൈസുകൾ തെറ്റായ ഫലങ്ങൾ നൽകിയേക്കാം. വലിയ ഡാറ്റ ഉപയോഗിച്ച് പരിശോധിച്ചതിന് ശേഷം മാത്രം കണ്ടെത്തലുകൾ പ്രസിദ്ധീകരിക്കുക.

ഉയർന്ന ഉത്തരവാദിത്തമുള്ള മേഖലകളിൽ, ഊഹങ്ങൾ പറയുന്നതിനേക്കാൾ വിലപ്പെട്ടത് എപ്പോൾ നിർത്തണമെന്ന് അറിയുന്ന ഒരു മോഡലാണ്.

കോഡ് GitHub-ൽ ലഭ്യമാണ്: gbadedata/clinvar-interpretation-benchmark.

പൂർണ്ണരൂപം: https://dev.to/gbadedata/your-llm-got-the-variant-right-but-did-it-get-it-right-for-the-right-reason-1oc3

ഓപ്ഷണൽ ലേണിംഗ് കമ്മ്യൂണിറ്റി: https://t.me/GyaanSetuAi

നിങ്ങളുടെ LLM ശരിയായിരുന്നു, പക്ഷേ അത് ശരിയായ കാരണത്താലാണോ?

Continue reading

ഡൊമെയ്ൻ പ്രത്യേകതകളുള്ള LLM ഇവാലുവേഷൻ സെറ്റുകൾ നിർമ്മിക്കൽ

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲