𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗪𝗮𝘀 𝗥𝗶𝗴𝗵𝘁, 𝗕𝘂𝘁 𝗪𝗮𝘀 𝗜𝘁 𝗥𝗶𝗴𝗵𝘁 𝗳𝗼𝗿 𝘁𝗵𝗲 𝗥𝗶𝗴𝗵𝘁 𝗥𝗲𝗮𝘀𝗼𝗻?
ਮੈਂ ਇਹ ਦੇਖਣ ਲਈ ਇੱਕ ਬੈਂਚਮਾਰਕ ਬਣਾਇਆ ਕਿ ਕੀ ਇੱਕ LLM ਕਲੀਨਿਕਲ ਜੈਨੇਟਿਕ ਵੇਰੀਐਂਟਸ (clinical genetic variants) ਦੀ ਵਿਆਖਿਆ ਕਰ ਸਕਦਾ ਹੈ।
ਸ਼ੁਰੂਆਤੀ ਨਤੀਜੇ ਮਾੜੇ ਲੱਗੇ। ਮਾਡਲ ਨੇ 60 ਪ੍ਰਤੀਸ਼ਤ ਸ਼ੁੱਧਤਾ (accuracy) ਪ੍ਰਾਪਤ ਕੀਤੀ। ਮੈਂ ਲਗਭਗ ਇਹ ਸਿੱਟਾ ਕੱਢ ਲਿਆ ਸੀ ਕਿ ਮਾਡਲ ਮੱਧਮ ਸੀ ਅਤੇ ਵਰਤੋਂ ਲਈ ਅਯੋਗ ਸੀ।
ਮੈਂ ਗਲਤ ਸੀ।
ਅਸਲ ਸਮਝ ਉਦੋਂ ਹੀ ਆਈ ਜਦੋਂ ਮੈਂ ਸ਼ੁੱਧਤਾ ਨੂੰ ਮਾਪਣਾ ਬੰਦ ਕਰ ਦਿੱਤਾ ਅਤੇ ਸੁਰੱਖਿਆ (safety) ਨੂੰ ਮਾਪਣਾ ਸ਼ੁਰੂ ਕਰ ਦਿੱਤਾ।
ਕਲੀਨਿਕਲ ਜੈਨੇਟਿਕਸ ਵਿੱਚ, ਇੱਕ ਗਲਤ ਜਵਾਬ ਖ਼ਤਰਨਾਕ ਹੋ ਸਕਦਾ ਹੈ। ਗਲਤੀਆਂ ਦੋ ਕਿਸਮ ਦੀਆਂ ਹੁੰਦੀਆਂ ਹਨ:
- ਸੁਰੱਖਿਅਤ ਇਨਕਾਰ (Safe abstention): ਜਦੋਂ ਸੱਚਾਈ ਇੱਕ ਨਿਸ਼ਚਿਤ ਫੈਸਲਾ ਹੋਵੇ, ਤਾਂ ਮਾਡਲ "ਅਨਿਸ਼ਚਿਤ" (uncertain) ਕਹਿੰਦਾ ਹੈ। ਇਹ ਸੁਰੱਖਿਅਤ ਹੈ ਕਿਉਂਕਿ ਇੱਕ ਇਨਸਾਨ ਇਸਦੀ ਜਾਂਚ ਕਰੇਗਾ।
- ਨਿਸ਼ਚਿਤ ਗਲਤੀ (Confident error): ਮਾਡਲ ਉਲਟ ਫੈਸਲਾ ਲੈਂਦਾ ਹੈ (ਉਦਾਹਰਨ ਲਈ, ਬਿਮਾਰੀ ਪੈਦਾ ਕਰਨ ਵਾਲੇ ਵੇਰੀਐਂਟ ਨੂੰ "benign" ਕਹਿਣਾ)। ਇਹ ਇੱਕ ਖ਼ਤਰਨਾਕ ਅਸਫਲਤਾ ਹੈ।
ਮੇਰੇ ਬੈਂਚਮਾਰਕ ਨੇ ਦਿਖਾਇਆ ਕਿ ਮਾਡਲ ਵਿੱਚ ਜ਼ੀਰੋ ਨਿਸ਼ਚਿਤ ਗਲਤੀਆਂ ਸਨ। ਇਸਨੇ ਕਦੇ ਵੀ ਕੋਈ ਖ਼ਤਰਨਾਕ ਗਲਤੀ ਨਹੀਂ ਕੀਤੀ। ਜਦੋਂ ਇਸ ਕੋਲ ਲੋੜੀਂਦੇ ਸਬੂਤਾਂ ਦੀ ਕਮੀ ਸੀ, ਤਾਂ ਇਸਨੇ ਸਿਰਫ਼ ਚੁੱਪ ਰਹਿਣ ਦੀ ਚੋਣ ਕੀਤੀ।
ਜਦੋਂ ਮੈਂ ਇੱਕ ਸਧਾਰਨ ਸ਼ੁੱਧਤਾ ਮੈਟ੍ਰਿਕ (accuracy metric) ਦੀ ਵਰਤੋਂ ਕੀਤੀ, ਤਾਂ ਮੈਂ ਇੱਕ ਸੁਰੱਖਿਅਤ, ਚੰਗੀ ਤਰ੍ਹਾਂ ਕੈਲੀਬਰਡ (well-calibrated) ਮਾਡਲ ਨੂੰ ਅਸਫਲ ਕਰ ਦਿੱਤਾ। ਮੇਰਾ ਮੈਟ੍ਰਿਕ ਸਮੱਸਿਆ ਸੀ, ਮਾਡਲ ਨਹੀਂ।
ਜੇਕਰ ਤੁਸੀਂ ਮੈਡੀਸਨ, ਕਾਨੂੰਨ, ਜਾਂ ਵਿੱਤ ਵਰਗੇ ਉੱਚ-ਜੋਖਮ ਵਾਲੇ ਖੇਤਰਾਂ ਲਈ ਬੈਂਚਮਾਰਕ ਬਣਾਉਂਦੇ ਹੋ, ਤਾਂ ਇਹ ਨਿਯਮਾਂ ਦੀ ਪਾਲਣਾ ਕਰੋ:
- ਸੁਰੱਖਿਅਤ ਅਸਫਲਤਾਵਾਂ ਨੂੰ ਖ਼ਤਰਨਾਕ ਅਸਫਲਤਾਵਾਂ ਤੋਂ ਵੱਖ ਕਰੋ। ਇੱਕ ਇਮਾਨਦਾਰ "ਮੈਨੂੰ ਨਹੀਂ ਪਤਾ" ਨੂੰ ਕਦੇ ਵੀ ਇੱਕ ਨਿਸ਼ਚਿਤ ਝੂਠ ਦੇ ਸਮਾਨ ਰੱਖੋ ਨਾ।
- ਤਰਕ ਦੀ ਜਾਂਚ (Audit) ਕਰੋ। ਸਿਰਫ਼ ਸ਼ੁੱਧਤਾ ਇਹ ਨਹੀਂ ਦੱਸਦੀ ਕਿ ਮਾਡਲ ਸਬੂਤ ਘੜ ਰਿਹਾ ਹੈ ਜਾਂ ਤਰਕ ਦੀ ਪਾਲਣਾ ਕਰ ਰਿਹਾ ਹੈ।
- ਆਪਣੇ ਸਬੂਤ ਅਸਲੀ ਰੱਖੋ। ਆਪਣੇ ਟੈਸਟਾਂ ਵਿੱਚ ਫਰਜ਼ੀ ਡੇਟਾ ਨਾ ਪਾਓ। ਜੇਕਰ ਤੁਹਾਡਾ ਮੁਲਾਂਕਣ ਫਰਜ਼ੀ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ, ਤਾਂ ਤੁਸੀਂ ਇਹ ਟੈਸਟ ਨਹੀਂ ਕਰ ਸਕਦੇ ਕਿ ਮਾਡਲ ਹਲੂਸੀਨੇਟ (hallucinates) ਕਰ ਰਿਹਾ ਹੈ ਜਾਂ ਨਹੀਂ।
- ਆਪਣੇ ਵਿਸ਼ਲੇਸ਼ਣ ਨੂੰ ਕੈਲੀਬਰੇਟ ਕਰੋ। ਛੋਟੇ ਸੈਂਪਲ ਸਾਈਜ਼ ਝੂਠ ਬੋਲ ਸਕਦੇ ਹਨ। ਵੱਡੇ ਡੇਟਾ ਨਾਲ ਪੁਸ਼ਟੀ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਨਤੀਜੇ ਪ੍ਰਕਾਸ਼ਿਤ ਨਾ ਕਰੋ।
ਉੱਚ-ਜੋਖਮ ਵਾਲੇ ਖੇਤਰਾਂ ਵਿੱਚ, ਇੱਕ ਮਾਡਲ ਜੋ ਜਾਣਦਾ ਹੈ ਕਿ ਕਦੋਂ ਰੁਕਣਾ ਹੈ, ਉਹ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਵਾਲੇ ਮਾਡਲ ਨਾਲੋਂ ਵਧੇਰੇ ਕੀਮਤੀ ਹੈ।
ਕੋਡ GitHub 'ਤੇ ਹੈ: gbadedata/clinvar-interpretation-benchmark।
ਪੂਰੀ ਪੋਸਟ: https://dev.to/gbadedata/your-llm-got-the-variant-right