𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗪𝗮𝘀 𝗥𝗶𝗴𝗵𝘁, 𝗕𝘂𝘁 𝗪𝗮𝘀 𝗜𝘁 𝗥𝗶𝗴𝗵𝘁 𝗳𝗼𝗿 𝘁𝗵𝗲 𝗥𝗶𝗴𝗵𝘁 𝗥𝗲𝗮𝘀𝗼𝗻?
ಒಂದು LLM ಕ್ಲಿನಿಕಲ್ ಜೆನೆಟಿಕ್ ವೇರಿಯಂಟ್ಗಳನ್ನು (clinical genetic variants) ಅರ್ಥೈಸಬಲ್ಲದೇ ಎಂದು ನೋಡಲು ನಾನು ಒಂದು ಬೆಂಚ್ಮಾರ್ಕ್ ಅನ್ನು ನಿರ್ಮಿಸಿದೆ.
ಆರಂಭಿಕ ಫಲಿತಾಂಶಗಳು ಕೆಟ್ಟದಾಗಿದ್ದವು. ಮಾಡೆಲ್ 60 ಪ್ರತಿಶತ ನಿಖರತೆಯನ್ನು (accuracy) ಸಾಧಿಸಿತು. ಮಾಡೆಲ್ ಸಾಧಾರಣ ಮಟ್ಟದ್ದಾಗಿದೆ ಮತ್ತು ಬಳಕೆಗೆ ಯೋಗ್ಯವಲ್ಲ ಎಂದು ನಾನು ಬಹುತೇಕ ನಿರ್ಧರಿಸಿದ್ದೆ.
ನಾನು ತಪ್ಪಾಗಿದ್ದೆ.
ನಾನು ನಿಖರತೆಯನ್ನು (accuracy) ಅಳೆಯುವುದನ್ನು ನಿಲ್ಲಿಸಿ, ಸುರಕ್ಷತೆಯನ್ನು (safety) ಅಳೆಯಲು ಪ್ರಾರಂಭಿಸಿದಾಗ ಮಾತ್ರ ನಿಜವಾದ ಒಳನೋಟ ಲಭ್ಯವಾಯಿತು.
ಕ್ಲಿನಿಕಲ್ ಜೆನೆಟಿಕ್ಸ್ನಲ್ಲಿ, ತಪ್ಪು ಉತ್ತರವು ಅಪಾಯಕಾರಿಯಾಗಬಹುದು. ಇದರಲ್ಲಿ ಎರಡು ರೀತಿಯ ತಪ್ಪುಗಳಿವೆ:
- ಸುರಕ್ಷಿತ ನಿರಾಕರಣೆ (Safe abstention): ಸತ್ಯವು ಸ್ಪಷ್ಟವಾಗಿ ತಿಳಿದಿದ್ದರೂ, ಮಾಡೆಲ್ "ಅನಿಶ್ಚಿತ" (uncertain) ಎಂದು ಹೇಳುತ್ತದೆ. ಇದು ಸುರಕ್ಷಿತವಾಗಿದೆ ಏಕೆಂದರೆ ಮನುಷ್ಯನು ಇದನ್ನು ಪರಿಶೀಲಿಸುತ್ತಾನೆ.
- ಆತ್ಮವಿಶ್ವಾಸದ ತಪ್ಪು (Confident error): ಮಾಡೆಲ್ ವಿರುದ್ಧವಾದ ನಿರ್ಧಾರವನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ (ಉದಾಹರಣೆಗೆ, ರೋಗಕಾರಕ ವೇರಿಯಂಟ್ ಅನ್ನು "ಬೆನಿನ್" (benign) ಎಂದು ಕರೆಯುವುದು). ಇದು ಅಪಾಯಕಾರಿ ವೈಫಲ್ಯವಾಗಿದೆ.
ನನ್ನ ಬೆಂಚ್ಮಾರ್ಕ್ ಮಾಡೆಲ್ನಲ್ಲಿ ಯಾವುದೇ ಆತ್ಮವಿಶ್ವಾಸದ ತಪ್ಪುಗಳು ಇಲ್ಲ ಎಂದು ತೋರಿಸಿಕೊಟ್ಟಿತು. ಅದು ಎಂದಿಗೂ ಅಪಾಯಕಾರಿ ತಪ್ಪನ್ನು ಮಾಡಲಿಲ್ಲ. ಸಾಕಷ್ಟು ಪುರಾವೆಗಳಿಲ್ಲದಿದ್ದಾಗ ಅದು ಸುಮ್ಮನಿರಲು ನಿರ್ಧರಿಸಿತು.
ನಾನು ಸರಳ ನಿಖರತೆಯ ಮಾಪಕವನ್ನು (accuracy metric) ಬಳಸಿದಾಗ, ಸುರಕ್ಷಿತ ಮತ್ತು ಸರಿಯಾಗಿ ಹೊಂದಾಣಿಕೆಯಾದ (well-calibrated) ಮಾಡೆಲ್ ಅನ್ನು ವೈಫಲ್ಯ ಎಂದು ಪರಿಗಣಿಸಿದೆ. ಸಮಸ್ಯೆ ಮಾಡೆಲ್ನಲ್ಲಲ್ಲ, ನನ್ನ ಮಾಪಕದಲ್ಲಿದೆ.
ನೀವು ವೈದ್ಯಕೀಯ, ಕಾನೂನು ಅಥವಾ ಹಣಕಾಸಿನಂತಹ ಹೆಚ್ಚಿನ ಜವಾಬ್ದಾರಿ ಇರುವ ಕ್ಷೇತ್ರಗಳಿಗಾಗಿ ಬೆಂಚ್ಮಾರ್ಕ್ಗಳನ್ನು ನಿರ್ಮಿಸುತ್ತಿದ್ದರೆ, ಈ ನಿಯಮಗಳನ್ನು ಅನುಸರಿಸಿ:
- ಸುರಕ್ಷಿತ ವೈಫಲ್ಯಗಳನ್ನು ಅಪಾಯಕಾರಿ ವೈಫಲ್ಯಗಳಿಂದ ಪ್ರತ್ಯೇಕಿಸಿ. ಪ್ರಾಮಾಣಿಕವಾದ "ನನಗೆ ಗೊತ್ತಿಲ್ಲ" ಎಂಬ ಉತ್ತರವನ್ನು ಆತ್ಮವಿಶ್ವಾಸದ ಸುಳ್ಳಿನೊಂದಿಗೆ ಎಂದಿಗೂ ಸೇರಿಸಬೇಡಿ.
- ತರ್ಕವನ್ನು (reasoning) ಪರಿಶೀಲಿಸಿ. ಮಾಡೆಲ್ ಪುರಾವೆಗಳನ್ನು ಸೃಷ್ಟಿಸುತ್ತಿದೆಯೇ ಅಥವಾ ತರ್ಕವನ್ನು ಅನುಸರಿಸುತ್ತಿದೆಯೇ ಎಂಬುದನ್ನು ಕೇವಲ ನಿಖರತೆಯಿಂದ ತಿಳಿಯಲು ಸಾಧ್ಯವಿಲ್ಲ.
- ನಿಮ್ಮ ಪುರಾವೆಗಳು ನೈಜವಾಗಿರಲಿ. ನಿಮ್ಮ ಪರೀಕ್ಷೆಗಳಿಗೆ ನಕಲಿ ಡೇಟಾವನ್ನು ಬಳಸಬೇಡಿ. ನಿಮ್ಮ ಮೌಲ್ಯಮಾಪನವು ನಕಲಿ ಡೇಟಾವನ್ನು ಬಳಸಿದರೆ, ಮಾಡೆಲ್ ಭ್ರಮೆಗೊಳಿಸುತ್ತಿದೆಯೇ (hallucinates) ಎಂದು ನೀವು ಪರೀಕ್ಷಿಸಲು ಸಾಧ್ಯವಿಲ್ಲ.
- ನಿಮ್ಮ ಸ್ವಂತ ವಿಶ್ಲೇಷಣೆಯನ್ನು ಕ್ಯಾಲಿಬ್ರೇಟ್ ಮಾಡಿ. ಸಣ್ಣ ಮಾದರಿ ಗಾತ್ರಗಳು (sample sizes) ಸುಳ್ಳು ಹೇಳಬಹುದು. ದೊಡ್ಡ ಪ್ರಮಾಣದ ಡೇಟಾದೊಂದಿಗೆ ಪರಿಶೀಲಿಸುವ ಮೊದಲು ಸಂಶೋಧನೆಗಳನ್ನು ಪ್ರಕಟಿಸಬೇಡಿ.
ಹೆಚ್ಚಿನ ಜವಾಬ್ದಾರಿ ಇರುವ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ, ಊಹಿಸುವ ಮಾಡೆಲ್ನಿಗಿಂತ ಯಾವಾಗ ನಿಲ್ಲಿಸಬೇಕೆಂದು ತಿಳಿಯುವ ಮಾಡೆಲ್ ಹೆಚ್ಚು ಮೌಲ್ಯಯುತವಾಗಿದೆ.
ಕೋಡ್ GitHub ನಲ್ಲಿ ಲಭ್ಯವಿದೆ: gbadedata/clinvar-interpretation-benchmark.
ಪೂರ್ಣ ಲೇಖನ: https://dev.to/gbadedata/your-llm-got-the-variant-right-but-did-it-get-it-right-for-the-right-reason-1oc3
ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi