ನಿಮ್ಮ LLM ಸರಿಯಾಗಿತ್ತು, ಆದರೆ ಅದು ಸರಿಯಾದ ಕಾರಣಕ್ಕಾಗಿ ಸರಿಯಾಗಿದ್ದಿತೇ?

Translated for your language. Read the original.

AI-assisted draft.

4 ಗಂಟೆಗಳ ಹಿಂದೆ2min read

𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗪𝗮𝘀 𝗥𝗶𝗴𝗵𝘁, 𝗕𝘂𝘁 𝗪𝗮𝘀 𝗜𝘁 𝗥𝗶𝗴𝗵𝘁 𝗳𝗼𝗿 𝘁𝗵𝗲 𝗥𝗶𝗴𝗵𝘁 𝗥𝗲𝗮𝘀𝗼𝗻?

ಒಂದು LLM ಕ್ಲಿನಿಕಲ್ ಜೆನೆಟಿಕ್ ವೇರಿಯಂಟ್‌ಗಳನ್ನು (clinical genetic variants) ಅರ್ಥೈಸಬಲ್ಲದೇ ಎಂದು ನೋಡಲು ನಾನು ಒಂದು ಬೆಂಚ್‌ಮಾರ್ಕ್ ಅನ್ನು ನಿರ್ಮಿಸಿದೆ.

ಆರಂಭಿಕ ಫಲಿತಾಂಶಗಳು ಕೆಟ್ಟದಾಗಿದ್ದವು. ಮಾಡೆಲ್ 60 ಪ್ರತಿಶತ ನಿಖರತೆಯನ್ನು (accuracy) ಸಾಧಿಸಿತು. ಮಾಡೆಲ್ ಸಾಧಾರಣ ಮಟ್ಟದ್ದಾಗಿದೆ ಮತ್ತು ಬಳಕೆಗೆ ಯೋಗ್ಯವಲ್ಲ ಎಂದು ನಾನು ಬಹುತೇಕ ನಿರ್ಧರಿಸಿದ್ದೆ.

ನಾನು ತಪ್ಪಾಗಿದ್ದೆ.

ನಾನು ನಿಖರತೆಯನ್ನು (accuracy) ಅಳೆಯುವುದನ್ನು ನಿಲ್ಲಿಸಿ, ಸುರಕ್ಷತೆಯನ್ನು (safety) ಅಳೆಯಲು ಪ್ರಾರಂಭಿಸಿದಾಗ ಮಾತ್ರ ನಿಜವಾದ ಒಳನೋಟ ಲಭ್ಯವಾಯಿತು.

ಕ್ಲಿನಿಕಲ್ ಜೆನೆಟಿಕ್ಸ್‌ನಲ್ಲಿ, ತಪ್ಪು ಉತ್ತರವು ಅಪಾಯಕಾರಿಯಾಗಬಹುದು. ಇದರಲ್ಲಿ ಎರಡು ರೀತಿಯ ತಪ್ಪುಗಳಿವೆ:

ಸುರಕ್ಷಿತ ನಿರಾಕರಣೆ (Safe abstention): ಸತ್ಯವು ಸ್ಪಷ್ಟವಾಗಿ ತಿಳಿದಿದ್ದರೂ, ಮಾಡೆಲ್ "ಅನಿಶ್ಚಿತ" (uncertain) ಎಂದು ಹೇಳುತ್ತದೆ. ಇದು ಸುರಕ್ಷಿತವಾಗಿದೆ ಏಕೆಂದರೆ ಮನುಷ್ಯನು ಇದನ್ನು ಪರಿಶೀಲಿಸುತ್ತಾನೆ.
ಆತ್ಮವಿಶ್ವಾಸದ ತಪ್ಪು (Confident error): ಮಾಡೆಲ್ ವಿರುದ್ಧವಾದ ನಿರ್ಧಾರವನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ (ಉದಾಹರಣೆಗೆ, ರೋಗಕಾರಕ ವೇರಿಯಂಟ್‌ ಅನ್ನು "ಬೆನಿನ್" (benign) ಎಂದು ಕರೆಯುವುದು). ಇದು ಅಪಾಯಕಾರಿ ವೈಫಲ್ಯವಾಗಿದೆ.

ನನ್ನ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಮಾಡೆಲ್‌ನಲ್ಲಿ ಯಾವುದೇ ಆತ್ಮವಿಶ್ವಾಸದ ತಪ್ಪುಗಳು ಇಲ್ಲ ಎಂದು ತೋರಿಸಿಕೊಟ್ಟಿತು. ಅದು ಎಂದಿಗೂ ಅಪಾಯಕಾರಿ ತಪ್ಪನ್ನು ಮಾಡಲಿಲ್ಲ. ಸಾಕಷ್ಟು ಪುರಾವೆಗಳಿಲ್ಲದಿದ್ದಾಗ ಅದು ಸುಮ್ಮನಿರಲು ನಿರ್ಧರಿಸಿತು.

ನಾನು ಸರಳ ನಿಖರತೆಯ ಮಾಪಕವನ್ನು (accuracy metric) ಬಳಸಿದಾಗ, ಸುರಕ್ಷಿತ ಮತ್ತು ಸರಿಯಾಗಿ ಹೊಂದಾಣಿಕೆಯಾದ (well-calibrated) ಮಾಡೆಲ್ ಅನ್ನು ವೈಫಲ್ಯ ಎಂದು ಪರಿಗಣಿಸಿದೆ. ಸಮಸ್ಯೆ ಮಾಡೆಲ್‌ನಲ್ಲಲ್ಲ, ನನ್ನ ಮಾಪಕದಲ್ಲಿದೆ.

ನೀವು ವೈದ್ಯಕೀಯ, ಕಾನೂನು ಅಥವಾ ಹಣಕಾಸಿನಂತಹ ಹೆಚ್ಚಿನ ಜವಾಬ್ದಾರಿ ಇರುವ ಕ್ಷೇತ್ರಗಳಿಗಾಗಿ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳನ್ನು ನಿರ್ಮಿಸುತ್ತಿದ್ದರೆ, ಈ ನಿಯಮಗಳನ್ನು ಅನುಸರಿಸಿ:

ಸುರಕ್ಷಿತ ವೈಫಲ್ಯಗಳನ್ನು ಅಪಾಯಕಾರಿ ವೈಫಲ್ಯಗಳಿಂದ ಪ್ರತ್ಯೇಕಿಸಿ. ಪ್ರಾಮಾಣಿಕವಾದ "ನನಗೆ ಗೊತ್ತಿಲ್ಲ" ಎಂಬ ಉತ್ತರವನ್ನು ಆತ್ಮವಿಶ್ವಾಸದ ಸುಳ್ಳಿನೊಂದಿಗೆ ಎಂದಿಗೂ ಸೇರಿಸಬೇಡಿ.
ತರ್ಕವನ್ನು (reasoning) ಪರಿಶೀಲಿಸಿ. ಮಾಡೆಲ್ ಪುರಾವೆಗಳನ್ನು ಸೃಷ್ಟಿಸುತ್ತಿದೆಯೇ ಅಥವಾ ತರ್ಕವನ್ನು ಅನುಸರಿಸುತ್ತಿದೆಯೇ ಎಂಬುದನ್ನು ಕೇವಲ ನಿಖರತೆಯಿಂದ ತಿಳಿಯಲು ಸಾಧ್ಯವಿಲ್ಲ.
ನಿಮ್ಮ ಪುರಾವೆಗಳು ನೈಜವಾಗಿರಲಿ. ನಿಮ್ಮ ಪರೀಕ್ಷೆಗಳಿಗೆ ನಕಲಿ ಡೇಟಾವನ್ನು ಬಳಸಬೇಡಿ. ನಿಮ್ಮ ಮೌಲ್ಯಮಾಪನವು ನಕಲಿ ಡೇಟಾವನ್ನು ಬಳಸಿದರೆ, ಮಾಡೆಲ್ ಭ್ರಮೆಗೊಳಿಸುತ್ತಿದೆಯೇ (hallucinates) ಎಂದು ನೀವು ಪರೀಕ್ಷಿಸಲು ಸಾಧ್ಯವಿಲ್ಲ.
ನಿಮ್ಮ ಸ್ವಂತ ವಿಶ್ಲೇಷಣೆಯನ್ನು ಕ್ಯಾಲಿಬ್ರೇಟ್ ಮಾಡಿ. ಸಣ್ಣ ಮಾದರಿ ಗಾತ್ರಗಳು (sample sizes) ಸುಳ್ಳು ಹೇಳಬಹುದು. ದೊಡ್ಡ ಪ್ರಮಾಣದ ಡೇಟಾದೊಂದಿಗೆ ಪರಿಶೀಲಿಸುವ ಮೊದಲು ಸಂಶೋಧನೆಗಳನ್ನು ಪ್ರಕಟಿಸಬೇಡಿ.

ಹೆಚ್ಚಿನ ಜವಾಬ್ದಾರಿ ಇರುವ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ, ಊಹಿಸುವ ಮಾಡೆಲ್‌ನಿಗಿಂತ ಯಾವಾಗ ನಿಲ್ಲಿಸಬೇಕೆಂದು ತಿಳಿಯುವ ಮಾಡೆಲ್ ಹೆಚ್ಚು ಮೌಲ್ಯಯುತವಾಗಿದೆ.

ಕೋಡ್ GitHub ನಲ್ಲಿ ಲಭ್ಯವಿದೆ: gbadedata/clinvar-interpretation-benchmark.

ಪೂರ್ಣ ಲೇಖನ: https://dev.to/gbadedata/your-llm-got-the-variant-right-but-did-it-get-it-right-for-the-right-reason-1oc3

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi

ನಿಮ್ಮ LLM ಸರಿಯಾಗಿತ್ತು, ಆದರೆ ಅದು ಸರಿಯಾದ ಕಾರಣಕ್ಕಾಗಿ ಸರಿಯಾಗಿದ್ದಿತೇ?

Continue reading

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲