91% ਪਾਸ ਰੇਟ। ਗੇਟ ਗ੍ਰੀਨ। ਸ਼ਿਪਡ। ਹੁਣ ਤੱਕ ਦਾ ਸਭ ਤੋਂ ਮਾੜਾ ਰਿਗਰੈਸ਼ਨ (Regression)।
ਅਸੀਂ ਇੱਕ intent-classification ਟੈਸਟ 'ਤੇ 91% ਪਾਸ ਰੇਟ ਪ੍ਰਾਪਤ ਕੀਤਾ। ਥ੍ਰੈਸ਼ਹੋਲਡ (threshold) 90% ਸੀ। ਅਸੀਂ ਇਸ ਨੂੰ ਪਾਰ ਕਰ ਲਿਆ। ਅਸੀਂ ਕੋਡ ਸ਼ਿਪ (ship) ਕਰ ਦਿੱਤਾ।
ਇਹ ਇਸ ਤਿਮਾਹੀ ਦਾ ਸਾਡਾ ਸਭ ਤੋਂ ਮਾੜਾ ਰਿਗਰੈਸ਼ਨ ਸੀ।
ਸਮੱਸਿਆ ਸਾਡੀ ਗਣਨਾ (math) ਵਿੱਚ ਸੀ। ਸਾਡਾ ਇਵੈਲੂਏਸ਼ਨ ਸਕੋਰ (evaluation score) ਹਫ਼ਤਿਆਂ ਤੱਕ 96% ਜਾਂ 97% 'ਤੇ ਰਿਹਾ। ਫਿਰ, ਇੱਕ ਬਦਲਾਅ ਨੇ ਇੱਕ ਖਾਸ ਸਲਾਈਸ (slice) ਨੂੰ ਖਰਾਬ ਕਰ ਦਿੱਤਾ: ਅਸਪਸ਼ਟ ਰਿਫੰਡ ਬੇਨਤੀਆਂ (ambiguous refund requests)। ਉਹ ਸਲਾਈਸ 98% ਤੋਂ ਡਿੱਗ ਕੇ 74% 'ਤੇ ਆ ਗਿਆ।
ਉਹ ਸਲਾਈਸ ਸਾਡੇ ਕੁੱਲ ਟ੍ਰੈਫਿਕ ਦਾ 4% ਹੈ। ਕਿਉਂਕਿ ਅਸੀਂ ਔਸਤ (average) ਨੂੰ ਦੇਖਿਆ, ਇਸ ਲਈ ਕੁੱਲ ਸਕੋਰ ਸਿਰਫ਼ 91% ਤੱਕ ਹੀ ਡਿੱਗਿਆ। ਗੇਟ ਗ੍ਰੀਨ ਹੀ ਰਿਹਾ।
ਐਗਰੀਗੇਟਸ (Aggregates) ਸ਼ੋਰ (noise) ਦੇ ਅੰਦਰ ਅਸਫਲਤਾਵਾਂ ਨੂੰ ਲੁਕਾ ਲੈਂਦੇ ਹਨ।
ਉਸ ਸਲਾਈਸ ਦੇ ਯੂਜ਼ਰਸ ਨੇ 91% ਨਹੀਂ ਦੇਖਿਆ। ਉਨ੍ਹਾਂ ਨੇ 74% ਦੇਖਿਆ। ਇੱਕ ਸਟੈਟਿਕ ਥ੍ਰੈਸ਼ਹੋਲਡ ਤੁਹਾਨੂੰ ਦੱਸਦਾ ਹੈ ਕਿ ਕੀ ਪੂਰਾ ਸਿਸਟਮ ਡਿੱਗ ਰਿਹਾ ਹੈ। ਇਹ ਤੁਹਾਨੂੰ ਇਹ ਨਹੀਂ ਦੱਸਦਾ ਕਿ ਤੁਹਾਡੇ ਸਿਸਟਮ ਦਾ ਕੋਈ ਇੱਕ ਹਿੱਸਾ ਖਰਾਬ ਹੋ ਰਿਹਾ ਹੈ। ਜੇਕਰ 96 ਸਲਾਈਸ ਠੀਕ ਹਨ ਅਤੇ ਇੱਕ ਕਰੈਸ਼ ਹੋ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਇੱਕ ਉੱਚ ਔਸਤ ਉਸ ਕਰੈਸ਼ ਨੂੰ ਲੁਕਾ ਲੈਂਦੀ ਹੈ। ਤੁਹਾਨੂੰ ਆਪਣਾ ਐਰਰ ਟੈਸਟਿੰਗ ਟੂਲਜ਼ ਦੀ ਬਜਾਏ ਸਪੋਰਟ ਟਿਕਟਾਂ ਰਾਹੀਂ ਮਿਲਦਾ ਹੈ।
ਅਸੀਂ ਆਪਣੀ ਰਣਨੀਤੀ ਬਦਲ ਦਿੱਤੀ। ਅਸੀਂ ਐਬਸੋਲਿਊਟ ਨੰਬਰਾਂ (absolute numbers) 'ਤੇ ਗੇਟਿੰਗ ਕਰਨਾ ਬੰਦ ਕਰ ਦਿੱਤਾ। ਹੁਣ ਅਸੀਂ ਪਿਛਲੀ ਸਫਲ ਰਨ (successful run) ਦੇ ਆਧਾਰ 'ਤੇ ਗੇਟਿੰਗ ਕਰਦੇ ਹਾਂ।
ਅਸੀਂ ਦੋ ਨਿਯਮਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਾਂ। ਦੋਵੇਂ ਪਾਸ ਹੋਣੇ ਚਾਹੀਦੇ ਹਨ:
- ਕੋਈ ਵੀ ਸਿੰਗਲ ਸਲਾਈਸ ਬੇਸਲਾਈਨ (baseline) ਦੇ ਮੁਕਾਬਲੇ 3 ਪੁਆਇੰਟਾਂ ਤੋਂ ਵੱਧ ਨਹੀਂ ਡਿੱਗਣਾ ਚਾਹੀਦਾ।
- ਕੁੱਲ ਐਗਰੀਗੇਟ ਬੇਸਲਾਈਨ ਦੇ ਮੁਕਾਬਲੇ 1.5 ਪੁਆਇੰਟਾਂ ਤੋਂ ਵੱਧ ਨਹੀਂ ਡਿੱਗਣਾ ਚਾਹੀਦਾ।
ਸਾਡੀ ਹਾਲੀਆ ਅਸਫਲਤਾ ਵਿੱਚ, ਰਿਫੰਡ ਸਲਾਈਸ 24 ਪੁਆਇੰਟ ਡਿੱਗ ਗਿਆ ਸੀ। ਪਹਿਲਾ ਨਿਯਮ ਇਸ ਨੂੰ ਤੁਰੰਤ ਫੜ ਲੈਂਦਾ।
ਡੈਲਟਾ ਗੇਟਿੰਗ (delta gating) ਦੇ ਜਾਲਾਂ ਤੋਂ ਸਾਵਧਾਨ ਰਹੋ। ਜੇਕਰ ਤੁਹਾਡੀ ਬੇਸਲਾਈਨ ਹਰ ਰਨ ਦੇ ਨਾਲ ਅਪਡੇਟ ਹੁੰਦੀ ਹੈ, ਤਾਂ ਤੁਸੀਂ ਅਸਫਲਤਾ ਵੱਲ ਵਧ ਸਕਦੇ ਹੋ। ਹਰ ਰੋਜ਼ 0.5 ਪੁਆਇੰਟ ਦੀ ਗਿਰਾਵਟ ਹਰ ਟੈਸਟ ਨੂੰ ਪਾਸ ਕਰ ਲੈਂਦੀ ਹੈ। ਤੁਸੀਂ ਹੌਲੀ-ਹੌਲੀ ਇੱਕ ਮਾੜੇ ਪ੍ਰੋਡਕਟ ਵੱਲ ਵਧਦੇ ਜਾਂਦੇ ਹੋ।
ਆਪਣੀ ਟੈਸਟਿੰਗ ਨੂੰ ਠੀਕ ਕਰਨ ਲਈ ਇਹਨਾਂ ਕਦਮਾਂ ਦੀ ਪਾਲਣਾ ਕਰੋ:
- ਆਪਣੀ ਬੇਸਲਾਈਨ ਨੂੰ ਉਦੋਂ ਹੀ ਅਪਡੇਟ ਕਰੋ ਜਦੋਂ ਤੁਹਾਡੀ ਮੇਨ ਬ੍ਰਾਂਚ (main branch) ਗ੍ਰੀਨ ਹੋਵੇ।
- ਸਕੋਰਾਂ ਵਿੱਚ ਕਿਸੇ ਵੀ ਜਾਣਬੁੱਝ ਕੇ ਕੀਤੀ ਗਈ ਗਿਰਾਵਟ ਲਈ ਕਿਸੇ ਇਨਸਾਨ ਦੀ ਮਨਜ਼ੂਰੀ ਲਓ।
- ਤੁਹਾਡੀ ਬੇਸਲਾਈਨ ਇਸ ਗੱਲ ਦਾ ਰਿਕਾਰਡ ਹੋਣੀ ਚਾਹੀਦੀ ਹੈ ਕਿ ਕੀ ਕੰਮ ਕਰ ਰਿਹਾ ਹੈ, ਨਾ ਕਿ ਸਿਰਫ਼ ਉਹ ਜੋ ਆਖਰੀ ਵਾਰ ਹੋਇਆ ਸੀ।
- ਆਪਣੀਆਂ ਪਿਛਲੀਆਂ 5 ਗ੍ਰੀਨ ਰਨਾਂ ਦੀ ਵੇਰੀਐਂਸ (variance) ਦੀ ਜਾਂਚ ਕਰੋ। ਜੇਕਰ ਕੋਈ ਸਲਾਈਸ ਤੁਹਾਡੇ ਥ੍ਰੈਸ਼ਹੋਲਡ ਤੋਂ ਵੱਧ ਉਤਾਰ-ਚੜ੍ਹਾਅ ਦਿਖਾਉਂਦਾ ਹੈ, ਤਾਂ ਤੁਹਾਡਾ ਥ੍ਰੈਸ਼ਹੋਲਡ ਸਿਰਫ਼ ਸ਼ੋਰ (noise) ਹੈ।
- ਆਪਣੇ ਸਭ ਤੋਂ ਛੋਟੇ ਸਲਾਈਸ ਦਾ ਟੈਸਟ ਕਰੋ। ਪੁੱਛੋ ਕਿ ਐਗਰੀਗੇਟ ਦੇ ਨੋਟਿਸ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਇਹ ਕਿੰਨਾ ਡਿੱਗ ਸਕਦਾ ਹੈ। ਜੇਕਰ ਜਵਾਬ ਇੱਕ ਵੱਡੀ ਸੰਖਿਆ ਹੈ, ਤਾਂ ਤੁਹਾਡਾ ਐਗਰੀਗੇਟ ਗਲਤੀਆਂ ਨੂੰ ਲੁਕਾ ਰਿਹਾ ਹੈ।
Optional learning community: https://t.me/GyaanSetuAi
