6 ਬੱਗ ਜੋ ਸਿਰਫ਼ ਇੱਕ ਲਾਈਵ ਮਾਡਲ ਹੀ ਸਾਨੂੰ ਸਿਖਾ ਸਕਦਾ ਹੈ
ਆਫਲਾਈਨ ਟੈਸਟ ਜ਼ਰੂਰੀ ਹਨ। ਪਰ ਉਹ ਕਾਫ਼ੀ ਨਹੀਂ ਹਨ।
ਮੈਂ ਪੇਰੂ ਵਿੱਚ ਵਾਤਾਵਰਣ ਦੀ ਪਾਲਣਾ (environmental compliance) ਨੂੰ ਟ੍ਰੈਕ ਕਰਨ ਲਈ AgentOps Debugger ਬਣਾਇਆ। ਇਹ ਰਿਕਾਰਡ ਲੱਭਣ ਅਤੇ ਰਿਪੋਰਟਾਂ ਲਿਖਣ ਲਈ Qwen Cloud 'ਤੇ Qwen-plus ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ।
ਮੈਂ ਸਿਸਟਮ ਨੂੰ 'ਆਫਲਾਈਨ-ਫਸਟ' (offline-first) ਡਿਜ਼ਾਈਨ ਕੀਤਾ ਸੀ। ਮੇਰੇ 315 ਟੈਸਟ ਬਿਨਾਂ ਕਿਸੇ ਨੈੱਟਵਰਕ ਕਾਲ ਦੇ ਚੱਲੇ। ਸਾਰੇ ਟੈਸਟ ਪਾਸ ਹੋ ਗਏ। ਪਰ ਜਦੋਂ ਮੈਂ Alibaba Cloud 'ਤੇ ਲਾਈਵ ਮਾਡਲ 'ਤੇ ਬਦਲਿਆ, ਤਾਂ ਸਿਸਟਮ ਟੁੱਟ ਗਿਆ।
ਕੋਡ ਠੀਕ ਸੀ। ਮਾਡਲ ਦਾ ਆਉਟਪੁੱਟ ਸਮੱਸਿਆ ਸੀ।
ਅਸਲ ਦੁਨੀਆ ਦੇ ਮਾਡਲ ਫੇਲ੍ਹ ਹੋਣ ਤੋਂ ਮਿਲੇ ਛੇ ਸਬਕ ਇੱਥੇ ਹਨ:
• Label Mismatch ਸਕੀਮਾ (schema) "completed" ਜਾਂ "failed" ਦੀ ਉਮੀਦ ਕਰ ਰਿਹਾ ਸੀ। ਮਾਡਲ ਨੇ "success" ਜਾਂ "done" ਭੇਜਿਆ। ਇੱਕੋ ਇੱਕ ਸ਼ਬਦ ਕਾਰਨ ਪਾਰਸਰ (parser) ਨੇ ਲਾਭਦਾਇਕ ਜਵਾਬਾਂ ਨੂੰ ਰੱਦ ਕਰ ਦਿੱਤਾ। Fix: ਸਮਾਨਾਰਥਕ ਸ਼ਬਦਾਂ (synonyms) ਨੂੰ ਨਾਰਮਲਾਈਜ਼ ਕਰਨ ਲਈ ਟੋਲਰੈਂਟ ਪ੍ਰੀਪ੍ਰੋਸੈਸਰਾਂ (tolerant preprocessors) ਦੀ ਵਰਤੋਂ ਕਰੋ।
• Degenerate Plans ਪਲੈਨਰ (planner) ਕਦੇ-ਕਦੇ ਕੁਝ ਵੀ ਵਾਪਸ ਨਹੀਂ ਦਿੰਦਾ ਸੀ। ਐਪ ਨੇ ਇਸ ਚੁੱਪ ਨੂੰ ਇੱਕ ਆਮ ਜਵਾਬ ਵਿੱਚ ਬਦਲਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ। ਇਸ ਨਾਲ ਫਰਜ਼ੀ ਜਵਾਬ ਬਣ ਗਏ। Fix: ਇੱਕ ਪਲਾਨ ਇੰਟਰਪ੍ਰੀਟਰ (plan interpreter) ਜੋੜੋ। ਜੇਕਰ ਪਲਾਨ ਖਾਲੀ ਹੈ, ਤਾਂ ਝੂਠ ਬੋਲਣ ਦੀ ਬਜਾਏ ਉਪਭੋਗਤਾ ਨੂੰ ਦੱਸੋ ਕਿ ਸਿਸਟਮ ਪਲਾਨ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਰਿਹਾ ਹੈ।
• Schema Drift ਮਾਡਲ ਨੇ ਫੀਲਡ ਦੇ ਨਾਮ "documentTitle" ਤੋਂ ਬਦਲ ਕੇ "title" ਕਰ ਦਿੱਤੇ। ਇਸਨੇ ਅੰਗਰੇਜ਼ੀ ਅਤੇ ਸਪੈਨਿਸ਼ ਲੇਬਲਾਂ ਨੂੰ ਵੀ ਮਿਲਾ ਦਿੱਤਾ। Fix: ਐਲੀਅਸ ਮੈਪਿੰਗ (alias mapping) ਦੀ ਵਰਤੋਂ ਕਰੋ ਅਤੇ ਵੈਧ ਹਿੱਸਿਆਂ ਨੂੰ ਬਚਾਓ। ਜੇਕਰ ਇੱਕ ਸਵੈ-ਹਵਾਲਾ (citation) ਖਰਾਬ ਹੈ, ਤਾਂ ਬਾਕੀ ਚਾਰ ਨੂੰ ਰੱਖੋ।
• Unpaired Tasks ਮਾਡਲ ਨੇ ਰਿਪੋਰਟ ਦਾ ਖਰੜਾ (draft) ਤਿਆਰ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਹੀ ਉਸਨੂੰ ਸੇਵ ਕਰਨ ਲਈ ਕਿਹਾ। ਲੌਜਿਕ ਸੁਰੱਖਿਅਤ ਸੀ, ਪਰ ਯੂਜ਼ਰ ਐਕਸਪੀਰੀਅੰਸ (user experience) ਖਰਾਬ ਹੋ ਗਿਆ ਸੀ। Fix: ਕੋਡ ਨੂੰ ਗੁੰਮ ਹੋਏ ਕਦਮਾਂ ਦਾ ਪਤਾ ਲਗਾਉਣਾ ਚਾਹੀਦਾ ਹੈ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਆਪਣੇ ਆਪ ਸ਼ਾਮਲ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ।
• Loop Errors ਉਪਭੋਗਤਾ ਦੇ ਜਵਾਬ ਦੇਣ ਤੋਂ ਬਾਅਦ ਵੀ ਮਾਡਲ ਉਹੀ ਸਪਸ਼ਟੀਕਰਨ ਵਾਲੇ ਸਵਾਲ ਪੁੱਛਦਾ ਰਿਹਾ। Fix: ਐਂਟੀਟੀ ਰੈਜ਼ੋਲਿਊਸ਼ਨ (entity resolution) ਨੂੰ ਮਾਡਲ ਤੋਂ ਹਟਾ ਕੇ ਕੋਡ ਵਿੱਚ ਲਿਆਓ। ਇੱਕ ਵਾਰ ਜਦੋਂ ਉਪਭੋਗਤਾ ਡੇਟਾ ਪ੍ਰਦਾਨ ਕਰ ਦਿੰਦਾ ਹੈ, ਤਾਂ ਸਿਸਟਮ ਬਾਕੀ ਦਾ ਕੰਮ ਨਿਸ਼ਚਿਤ ਤਰੀਕੇ (deterministically) ਨਾਲ ਸੰਭਾਲ ਲੈਂਦਾ ਹੈ।
• False Ambiguity ਮਾਡਲ ਨੇ ਦਾਅਵਾ ਕੀਤਾ ਕਿ ਕੰਪਨੀ ਦਾ ਨਾਮ ਅਸਪਸ਼ਟ (ambiguous) ਸੀ ਜਦੋਂ ਕਿ ਉਹ ਨਹੀਂ ਸੀ। ਇਸ ਨਾਲ ਵਰਕਫਲੋ ਰੁਕ ਗਿਆ। Fix: ਮਾਡਲ ਨੂੰ ਅੰਬਿਗੁਇਟੀ ਦਾ ਸੁਝਾਅ ਦੇਣ ਦਿਓ, ਪਰ ਇਹ ਫੈਸਲਾ ਡੇਟਾ ਨੂੰ ਕਰਨ ਦਿਓ ਕਿ ਕੀ ਇਹ ਅਸਲੀ ਹੈ।
ਮੁੱਖ ਸਿਧਾਂਤ: LLM ਨੂੰ ਕਹਾਣੀ ਸੁਣਾਉਣ ਦਿਓ, ਪਰ ਇਸਨੂੰ ਢਾਂਚਾਗਤ ਨਤੀਜਿਆਂ (structured outcomes) ਦਾ ਮਾਲਕ ਨਾ ਬਣਨ ਦਿਓ।
ਮਾਡਲ ਨੂੰ ਇਟੈਂਟ (intent), ਯੋਜਨਾਬੰਦੀ (planning) ਅਤੇ ਭਾਸ਼ਾ ਨੂੰ ਸੰਭਾਲਣਾ ਚਾਹੀਦਾ ਹੈ। ਕੋਡ ਨੂੰ ਐਂਟੀਟੀ ਰੈਜ਼ੋਲਿਊਸ਼ਨ (entity resolution), ਚਾਰਟ ਡੇਟਾ ਅਤੇ ਰਿਪੋਰਟ ਅਸੈਂਬਲੀ ਨੂੰ ਸੰਭਾਲਣਾ ਚਾਹੀਦਾ ਹੈ।
ਇੱਕ ਸਿਸਟਮ ਉਦੋਂ ਭਰੋਸੇਯੋਗ ਬਣਦਾ ਹੈ ਜਦੋਂ ਤੁਸੀਂ ਹਰ ਸਿੱਟੇ ਨੂੰ ਇੱਕ ਰਿਕਾਰਡ ਨਾਲ ਜੋੜ ਸਕਦੇ ਹੋ। ਕਹਾਣੀ ਲਈ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰੋ, ਪਰ ਸੱਚਾਈ ਲਈ ਆਪਣੇ ਕੋਡ ਦੀ ਵਰਤੋਂ ਕਰੋ।
Source: https://dev.to/ginollerena/six-bugs-only-a-live-model-could-teach-us-57k5
Optional learning community: https://t.me/GyaanSetuAi
