𝗔𝗴𝗲𝗻𝘁 𝗟𝗲𝗮𝗱𝗲𝗿𝗯𝗼𝗮𝗿𝗱𝘀 𝗠𝗶𝘀𝗹𝗲𝗮𝗱 𝗨𝗻𝗱𝗲𝗿 𝗗𝗶𝘀𝘁𝗿𝗶𝗯𝘂𝘁𝗶𝗼𝗻 𝗦𝗵𝗶𝗳𝘁
ਮੌਜੂਦਾ AI ਏਜੰਟ ਲੀਡਰਬੋਰਡ ਖਰਾਬ ਹਨ।
ਜ਼ਿਆਦਾਤਰ ਲੀਡਰਬੋਰਡ ਇੱਕ ਏਜੰਟ ਨੂੰ ਲੈਂਦੇ ਹਨ ਅਤੇ ਉਸਨੂੰ ਇੱਕ ਸਿੰਗਲ ਸਕੋਰ ਵਿੱਚ ਬਦਲ ਦਿੰਦੇ ਹਨ। ਫਿਰ ਉਹ ਏਜੰਟਾਂ ਨੂੰ ਸਭ ਤੋਂ ਵੱਧ ਤੋਂ ਘੱਟ ਦੇ ਕ੍ਰਮ ਵਿੱਚ ਸੈੱਟ ਕਰਦੇ ਹਨ। ਇਹ ਇੱਕ ਰਿਪੋਰਟ ਵਿੱਚ ਤਾਂ ਵਧੀਆ ਲੱਗਦਾ ਹੈ, ਪਰ ਅਸਲ ਦੁਨੀਆ ਵਿੱਚ ਇਹ ਅਸਫਲ ਰਹਿੰਦਾ ਹੈ।
IBM ਦਾ ਇੱਕ ਨਵਾਂ ਪੇਪਰ ਜਿਸਦਾ ਸਿਰਲੇਖ "Beyond Static Leaderboards" ਹੈ, ਇਸਦਾ ਕਾਰਨ ਦੱਸਦਾ ਹੈ।
ਸਮੱਸਿਆ: ਐਗਰੀਗੇਟ ਸਕੋਰ (Aggregate Scores)
ਡਿਪਲਾਈਮੈਂਟ ਲਈ ਇੱਕ ਸਿੰਗਲ ਮੀਨ ਸਕੋਰ (mean score) ਇੱਕ ਕਮਜ਼ੋਰ ਸੰਕੇਤ ਹੈ। ਇੱਕ ਮੁਲਾਂਕਣ (evaluation) ਤੁਹਾਨੂੰ ਇਹ ਦੱਸਣਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਕਿਹੜੇ ਏਜੰਟ ਨੂੰ ਸ਼ਿਪ (ship) ਕਰਨਾ ਹੈ। ਜੇਕਰ ਬੈਂਚਮਾਰਕ 'ਤੇ ਸਭ ਤੋਂ ਉੱਪਰਲਾ ਏਜੰਟ ਤੁਹਾਡੇ ਪ੍ਰੋਡਕਸ਼ਨ ਵਾਤਾਵਰਣ ਵਿੱਚ ਸਭ ਤੋਂ ਉੱਪਰਲਾ ਏਜੰਟ ਨਹੀਂ ਹੈ, ਤਾਂ ਲੀਡਰਬੋਰਡ ਨੇ ਤੁਹਾਨੂੰ ਗੁਮਰਾਹ ਕੀਤਾ ਹੈ।
IBM ਨੇ ਪਾਇਆ ਕਿ ਜਦੋਂ ਹਾਲਾਤ ਬਦਲਦੇ ਹਨ ਤਾਂ ਐਗਰੀਗੇਟ ਸਕੋਰਾਂ 'ਤੇ ਅਧਾਰਤ ਰੈਂਕਿੰਗਾਂ ਬਦਲ ਜਾਂਦੀਆਂ ਹਨ। ਇਸਨੂੰ ਡਿਸਟ੍ਰੀਬਿਊਸ਼ਨ ਸ਼ਿਫਟ (distribution shift) ਕਿਹਾ ਜਾਂਦਾ ਹੈ।
ਉਦਾਹਰਨ: ਹਵਾ ਵਿੱਚ ਦੌੜਾਕ (Sprinters)
- ਕਲਪਨਾ ਕਰੋ ਕਿ ਤੁਸੀਂ ਬਿਨਾਂ ਹਵਾ ਵਾਲੇ ਇੰਡੋਰ ਟ੍ਰੈਕ 'ਤੇ ਦੌੜਾਕਾਂ ਦੀ ਰੈਂਕਿੰਗ ਕਰ ਰਹੇ ਹੋ।
- ਦੌੜਾਕ A ਜਿੱਤਦਾ ਹੈ। ਦੌੜਾਕ B ਦੂਜੇ ਨੰਬਰ 'ਤੇ ਆਉਂਦਾ ਹੈ।
- ਹੁਣ ਦੌੜ ਨੂੰ ਬਾਹਰ ਤੇਜ਼ ਹਵਾ ਵਿੱਚ ਲੈ ਜਾਓ।
- ਰੈਂਕਿੰਗ ਬਦਲ ਜਾਂਦੀ ਹੈ। ਦੌੜਾਕ B ਜਿੱਤਦਾ ਹੈ। ਦੌੜਾਕ A ਤੀਜੇ ਨੰਬਰ 'ਤੇ ਆ ਜਾਂਦਾ ਹੈ।
ਇੰਡੋਰ ਘੜੀ ਗਲਤ ਨਹੀਂ ਸੀ। ਇਸਨੇ ਇੱਕ ਖਾਸ ਸੈਟਿੰਗ ਵਿੱਚ ਰਫਤਾਰ ਨੂੰ ਮਾਪਿਆ ਸੀ। ਇਹ ਸਿਰਫ ਇਹ ਭਵਿੱਖਬਾਣੀ ਨਹੀਂ ਕਰ ਸਕਿਆ ਕਿ ਦੌੜਾਕ ਹਵਾ ਵਿੱਚ ਕਿਵੇਂ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨਗੇ।
ਹੱਲ: ਪ੍ਰੈਡਿਕਟਿਵ ਵੈਲਿਡਿਟੀ (Predictive Validity)
IBM ਸਿਰਫ ਰੋਅ ਸਕੋਰਾਂ (raw scores) ਦੀ ਬਜਾਏ ਪ੍ਰੈਡਿਕਟਿਵ ਵੈਲਿਡਿਟੀ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦਾ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ।
ਪ੍ਰੈਡਿਕਟਿਵ ਵੈਲਿਡਿਟੀ ਇੱਕ ਬੈਂਚਮਾਰਕ ਅਤੇ ਅਸਲ ਦੁਨੀਆ ਦੇ ਨਤੀਜਿਆਂ ਵਿਚਕਾਰ ਰੈਂਕ ਕੋਰੀਲੇਸ਼ਨ (rank correlation) ਨੂੰ ਮਾਪਦੀ ਹੈ। ਇਹ ਇੱਕ ਸਧਾਰਨ ਸਵਾਲ ਪੁੱਛਦੀ ਹੈ: ਕੀ ਵਾਤਾਵਰਣ ਬਦਲਣ 'ਤੇ ਏਜੰਟਾਂ ਦਾ ਕ੍ਰਮ ਉਹੀ ਰਹਿੰਦਾ ਹੈ?
- ਉੱਚ ਪ੍ਰੈਡਿਕਟਿਵ ਵੈਲਿਡਿਟੀ: ਲੀਡਰਬੋਰਡ ਅਸਲ ਦੁਨੀਆ ਦੇ ਜੇਤੂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਦਾ ਹੈ।
- ਘੱਟ ਪ੍ਰੈਡਿਕਟਿਵ ਵੈਲਿਡਿਟੀ: ਲੀਡਰਬੋਰਡ ਗਲਤ ਏਜੰਟ ਵੱਲ ਇਸ਼ਾਰਾ ਕਰਦਾ ਹੈ।
ਮੁੱਖ ਸੰਕਲਪ (Key Concepts):
- In-sample: ਉਹ ਖਾਸ ਕੰਮ ਜੋ ਬੈਂਚਮਾਰਕ ਵਰਤਦਾ ਹੈ।
- Out-of-distribution: ਡਿਪਲਾਈਮੈਂਟ ਦੌਰਾਨ ਦੇਖੇ ਗਏ ਨਵੇਂ ਕੰਮ, ਨਵੇਂ ਟੂਲ, ਜਾਂ ਵੱਖਰਾ ਡੇਟਾ।
- Rank instability: ਜਦੋਂ ਕੰਮਾਂ ਵਿੱਚ ਇੱਕ ਛੋਟਾ ਜਿਹਾ ਬਦਲਾਅ ਪੂਰੇ ਲੀਡਰਬੋਰਡ ਨੂੰ ਬਦਲ ਦਿੰਦਾ ਹੈ।
ਬੈਂਚਮਾਰਕਾਂ ਨੂੰ ਸਿਰਫ ਸਕੋਰਬੋਰਡ ਵਾਂਗ ਦੇਖਣਾ ਬੰਦ ਕਰੋ। ਉਹਨਾਂ ਨੂੰ ਮਾਪਣ ਵਾਲੇ ਸਾਧਨਾਂ (measurement tools) ਵਜੋਂ ਵਰਤੋ। ਜੇਕਰ ਕੋਈ ਸਾਧਨ ਉਸ ਨਤੀਜੇ ਦੀ ਭਵਿੱਖਬਾਣੀ ਨਹੀਂ ਕਰ ਸਕਦਾ ਜਿਸਦੀ ਤੁਹਾਨੂੰ ਚਿੰਤਾ ਹੈ, ਤਾਂ ਇਹ ਪ੍ਰੋਡਕਸ਼ਨ ਲਈ ਬੇਕਾਰ ਹੈ।
Optional learning community: https://t.me/GyaanSetuAi
