6 Bugs Only a Live Model Could Teach Us

Translated for your language. Read the original.

AI-assisted draft.

6 ਬੱਗ ਜੋ ਸਿਰਫ਼ ਇੱਕ ਲਾਈਵ ਮਾਡਲ ਹੀ ਸਾਨੂੰ ਸਿਖਾ ਸਕਦਾ ਹੈ

ਆਫਲਾਈਨ ਟੈਸਟ ਜ਼ਰੂਰੀ ਹਨ। ਪਰ ਉਹ ਕਾਫ਼ੀ ਨਹੀਂ ਹਨ।

ਮੈਂ ਪੇਰੂ ਵਿੱਚ ਵਾਤਾਵਰਣ ਦੀ ਪਾਲਣਾ (environmental compliance) ਨੂੰ ਟ੍ਰੈਕ ਕਰਨ ਲਈ AgentOps Debugger ਬਣਾਇਆ। ਇਹ ਰਿਕਾਰਡ ਲੱਭਣ ਅਤੇ ਰਿਪੋਰਟਾਂ ਲਿਖਣ ਲਈ Qwen Cloud 'ਤੇ Qwen-plus ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ।

ਮੈਂ ਸਿਸਟਮ ਨੂੰ 'ਆਫਲਾਈਨ-ਫਸਟ' (offline-first) ਡਿਜ਼ਾਈਨ ਕੀਤਾ ਸੀ। ਮੇਰੇ 315 ਟੈਸਟ ਬਿਨਾਂ ਕਿਸੇ ਨੈੱਟਵਰਕ ਕਾਲ ਦੇ ਚੱਲੇ। ਸਾਰੇ ਟੈਸਟ ਪਾਸ ਹੋ ਗਏ। ਪਰ ਜਦੋਂ ਮੈਂ Alibaba Cloud 'ਤੇ ਲਾਈਵ ਮਾਡਲ 'ਤੇ ਬਦਲਿਆ, ਤਾਂ ਸਿਸਟਮ ਟੁੱਟ ਗਿਆ।

ਕੋਡ ਠੀਕ ਸੀ। ਮਾਡਲ ਦਾ ਆਉਟਪੁੱਟ ਸਮੱਸਿਆ ਸੀ।

ਅਸਲ ਦੁਨੀਆ ਦੇ ਮਾਡਲ ਫੇਲ੍ਹ ਹੋਣ ਤੋਂ ਮਿਲੇ ਛੇ ਸਬਕ ਇੱਥੇ ਹਨ:

• Label Mismatch ਸਕੀਮਾ (schema) "completed" ਜਾਂ "failed" ਦੀ ਉਮੀਦ ਕਰ ਰਿਹਾ ਸੀ। ਮਾਡਲ ਨੇ "success" ਜਾਂ "done" ਭੇਜਿਆ। ਇੱਕੋ ਇੱਕ ਸ਼ਬਦ ਕਾਰਨ ਪਾਰਸਰ (parser) ਨੇ ਲਾਭਦਾਇਕ ਜਵਾਬਾਂ ਨੂੰ ਰੱਦ ਕਰ ਦਿੱਤਾ। Fix: ਸਮਾਨਾਰਥਕ ਸ਼ਬਦਾਂ (synonyms) ਨੂੰ ਨਾਰਮਲਾਈਜ਼ ਕਰਨ ਲਈ ਟੋਲਰੈਂਟ ਪ੍ਰੀਪ੍ਰੋਸੈਸਰਾਂ (tolerant preprocessors) ਦੀ ਵਰਤੋਂ ਕਰੋ।

• Degenerate Plans ਪਲੈਨਰ (planner) ਕਦੇ-ਕਦੇ ਕੁਝ ਵੀ ਵਾਪਸ ਨਹੀਂ ਦਿੰਦਾ ਸੀ। ਐਪ ਨੇ ਇਸ ਚੁੱਪ ਨੂੰ ਇੱਕ ਆਮ ਜਵਾਬ ਵਿੱਚ ਬਦਲਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ। ਇਸ ਨਾਲ ਫਰਜ਼ੀ ਜਵਾਬ ਬਣ ਗਏ। Fix: ਇੱਕ ਪਲਾਨ ਇੰਟਰਪ੍ਰੀਟਰ (plan interpreter) ਜੋੜੋ। ਜੇਕਰ ਪਲਾਨ ਖਾਲੀ ਹੈ, ਤਾਂ ਝੂਠ ਬੋਲਣ ਦੀ ਬਜਾਏ ਉਪਭੋਗਤਾ ਨੂੰ ਦੱਸੋ ਕਿ ਸਿਸਟਮ ਪਲਾਨ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਰਿਹਾ ਹੈ।

• Schema Drift ਮਾਡਲ ਨੇ ਫੀਲਡ ਦੇ ਨਾਮ "documentTitle" ਤੋਂ ਬਦਲ ਕੇ "title" ਕਰ ਦਿੱਤੇ। ਇਸਨੇ ਅੰਗਰੇਜ਼ੀ ਅਤੇ ਸਪੈਨਿਸ਼ ਲੇਬਲਾਂ ਨੂੰ ਵੀ ਮਿਲਾ ਦਿੱਤਾ। Fix: ਐਲੀਅਸ ਮੈਪਿੰਗ (alias mapping) ਦੀ ਵਰਤੋਂ ਕਰੋ ਅਤੇ ਵੈਧ ਹਿੱਸਿਆਂ ਨੂੰ ਬਚਾਓ। ਜੇਕਰ ਇੱਕ ਸਵੈ-ਹਵਾਲਾ (citation) ਖਰਾਬ ਹੈ, ਤਾਂ ਬਾਕੀ ਚਾਰ ਨੂੰ ਰੱਖੋ।

• Unpaired Tasks ਮਾਡਲ ਨੇ ਰਿਪੋਰਟ ਦਾ ਖਰੜਾ (draft) ਤਿਆਰ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਹੀ ਉਸਨੂੰ ਸੇਵ ਕਰਨ ਲਈ ਕਿਹਾ। ਲੌਜਿਕ ਸੁਰੱਖਿਅਤ ਸੀ, ਪਰ ਯੂਜ਼ਰ ਐਕਸਪੀਰੀਅੰਸ (user experience) ਖਰਾਬ ਹੋ ਗਿਆ ਸੀ। Fix: ਕੋਡ ਨੂੰ ਗੁੰਮ ਹੋਏ ਕਦਮਾਂ ਦਾ ਪਤਾ ਲਗਾਉਣਾ ਚਾਹੀਦਾ ਹੈ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਆਪਣੇ ਆਪ ਸ਼ਾਮਲ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ।

• Loop Errors ਉਪਭੋਗਤਾ ਦੇ ਜਵਾਬ ਦੇਣ ਤੋਂ ਬਾਅਦ ਵੀ ਮਾਡਲ ਉਹੀ ਸਪਸ਼ਟੀਕਰਨ ਵਾਲੇ ਸਵਾਲ ਪੁੱਛਦਾ ਰਿਹਾ। Fix: ਐਂਟੀਟੀ ਰੈਜ਼ੋਲਿਊਸ਼ਨ (entity resolution) ਨੂੰ ਮਾਡਲ ਤੋਂ ਹਟਾ ਕੇ ਕੋਡ ਵਿੱਚ ਲਿਆਓ। ਇੱਕ ਵਾਰ ਜਦੋਂ ਉਪਭੋਗਤਾ ਡੇਟਾ ਪ੍ਰਦਾਨ ਕਰ ਦਿੰਦਾ ਹੈ, ਤਾਂ ਸਿਸਟਮ ਬਾਕੀ ਦਾ ਕੰਮ ਨਿਸ਼ਚਿਤ ਤਰੀਕੇ (deterministically) ਨਾਲ ਸੰਭਾਲ ਲੈਂਦਾ ਹੈ।

• False Ambiguity ਮਾਡਲ ਨੇ ਦਾਅਵਾ ਕੀਤਾ ਕਿ ਕੰਪਨੀ ਦਾ ਨਾਮ ਅਸਪਸ਼ਟ (ambiguous) ਸੀ ਜਦੋਂ ਕਿ ਉਹ ਨਹੀਂ ਸੀ। ਇਸ ਨਾਲ ਵਰਕਫਲੋ ਰੁਕ ਗਿਆ। Fix: ਮਾਡਲ ਨੂੰ ਅੰਬਿਗੁਇਟੀ ਦਾ ਸੁਝਾਅ ਦੇਣ ਦਿਓ, ਪਰ ਇਹ ਫੈਸਲਾ ਡੇਟਾ ਨੂੰ ਕਰਨ ਦਿਓ ਕਿ ਕੀ ਇਹ ਅਸਲੀ ਹੈ।

ਮੁੱਖ ਸਿਧਾਂਤ: LLM ਨੂੰ ਕਹਾਣੀ ਸੁਣਾਉਣ ਦਿਓ, ਪਰ ਇਸਨੂੰ ਢਾਂਚਾਗਤ ਨਤੀਜਿਆਂ (structured outcomes) ਦਾ ਮਾਲਕ ਨਾ ਬਣਨ ਦਿਓ।

ਮਾਡਲ ਨੂੰ ਇਟੈਂਟ (intent), ਯੋਜਨਾਬੰਦੀ (planning) ਅਤੇ ਭਾਸ਼ਾ ਨੂੰ ਸੰਭਾਲਣਾ ਚਾਹੀਦਾ ਹੈ। ਕੋਡ ਨੂੰ ਐਂਟੀਟੀ ਰੈਜ਼ੋਲਿਊਸ਼ਨ (entity resolution), ਚਾਰਟ ਡੇਟਾ ਅਤੇ ਰਿਪੋਰਟ ਅਸੈਂਬਲੀ ਨੂੰ ਸੰਭਾਲਣਾ ਚਾਹੀਦਾ ਹੈ।

ਇੱਕ ਸਿਸਟਮ ਉਦੋਂ ਭਰੋਸੇਯੋਗ ਬਣਦਾ ਹੈ ਜਦੋਂ ਤੁਸੀਂ ਹਰ ਸਿੱਟੇ ਨੂੰ ਇੱਕ ਰਿਕਾਰਡ ਨਾਲ ਜੋੜ ਸਕਦੇ ਹੋ। ਕਹਾਣੀ ਲਈ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰੋ, ਪਰ ਸੱਚਾਈ ਲਈ ਆਪਣੇ ਕੋਡ ਦੀ ਵਰਤੋਂ ਕਰੋ।

Source: https://dev.to/ginollerena/six-bugs-only-a-live-model-could-teach-us-57k5

Optional learning community: https://t.me/GyaanSetuAi

6 Bugs Only a Live Model Could Teach Us

Continue reading

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗛𝗮𝘃𝗲 𝗔 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗣𝗿𝗼𝗯𝗹𝗲𝗺

Building FailureDNA: An Agent Memory That Knows When Not To Trust Itself

I Built An AI Security Scanner — Then Found A Bug In My Own Detector

I Built An AI Security Scanner — Then Found A Bug In My Own Detector