My Agent Reported 12. The Real Number Was 13.

Translated for your language. Read the original.

AI-assisted draft.

My Agent Reported 12. The Real Number Was 13.

ਮੇਰੇ ਏਜੰਟ ਨੇ 12 ਦੱਸੇ। ਅਸਲ ਗਿਣਤੀ 13 ਸੀ।

ਮੈਂ ਇੱਕ ਕੋਡਿੰਗ ਏਜੰਟ ਬਣਾ ਰਿਹਾ ਹਾਂ ਜੋ ਸਥਾਨਕ (locally) ਤੌਰ 'ਤੇ ਚੱਲਦਾ ਹੈ। ਇਹ ਯੋਜਨਾਬੰਦੀ (planning) ਲਈ Claude ਅਤੇ ਕੋਡ ਜਨਰੇਸ਼ਨ ਲਈ ਲੋਕਲ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਹਾਲ ਹੀ ਵਿੱਚ, ਮੈਂ ਏਜੰਟ ਨੂੰ ਇੱਕ ਸਧਾਰਨ ਕੰਮ ਸੌਂਪਿਆ: ਕੁਝ ਖਾਸ ਲੌਗਸ (logs) ਦੀ ਗਿਣਤੀ ਕਰਨਾ।

ਏਜੰਟ ਨੇ 12 ਦੱਸੇ। ਮੈਂ ਮੈਨੂਅਲ ਬੁੱਕਕੀਪਿੰਗ ਤੋਂ ਥੱਕ ਗਿਆ ਸੀ, ਇਸ ਲਈ ਮੈਂ ਲਗਭਗ ਇਸ ਨੂੰ ਸਵੀਕਾਰ ਕਰ ਹੀ ਲਿਆ ਸੀ। ਫਿਰ ਮੈਂ ਆਪਣੇ ਟਰਮੀਨਲ ਵਿੱਚ ਮੈਨੂਅਲ ਚੈੱਕ ਕੀਤਾ। ਅਸਲ ਗਿਣਤੀ 13 ਸੀ।

ਏਜੰਟ ਨੇ ਇੱਕ ਐਂਟਰੀ ਛੱਡ ਦਿੱਤੀ ਕਿਉਂਕਿ ਉਸਦੀ ਸ਼ਕਲ ਅਨਿਯਮਿਤ (irregular) ਸੀ। ਏਜੰਟ ਕੋਈ ਭੁਲੇਖਾ (hallucinating) ਨਹੀਂ ਪਾ ਰਿਹਾ ਸੀ। ਇਹ ਸਿਰਫ਼ "ਲਗਭਗ ਸਹੀ" ਸੀ। ਇਹ ਗਲਤੀ ਦੀ ਸਭ ਤੋਂ ਖ਼ਤਰਨਾਕ ਕਿਸਮ ਹੈ। ਇਹ ਭਰੋਸਾ ਕਰਨ ਲਈ ਕਾਫ਼ੀ ਪ੍ਰਮਾਣਿਕ ਲੱਗਦੀ ਹੈ।

ਇਸ ਤੋਂ ਵੀ ਮਾੜਾ ਇਹ ਕਿ ਅੰਤਿਮ ਸਾਰ (summary metric) ਸਹੀ ਲੱਗ ਰਿਹਾ ਸੀ। ਰਾਊਂਡਿੰਗ ਅਤੇ ਗਰੁੱਪਿੰਗ ਦੇ ਕਦਮਾਂ ਨੇ ਗਲਤੀ ਨੂੰ ਛੁਪਾ ਦਿੱਤਾ। ਜੇਕਰ ਮੈਂ ਸਿਰਫ਼ ਅੰਤਿਮ ਰਿਪੋਰਟ ਦੇਖੀ ਹੁੰਦੀ, ਤਾਂ ਮੈਨੂੰ ਕੋਈ ਗਲਤੀ ਨਜ਼ਰ ਨਹੀਂ ਆਉਂਦੀ। ਪਰ ਕੱਚਾ ਡੇਟਾ (raw data) ਗਲਤ ਸੀ। ਇੱਕ ਵਾਰ ਜਦੋਂ ਤੁਹਾਡੀ ਮੁੱਢਲੀ ਮਾਪ (raw measurement) ਗਲਤ ਹੋ ਜਾਂਦੀ ਹੈ, ਤਾਂ ਹਰ ਭਵਿੱਖੀ ਰਿਪੋਰਟ ਉਸੇ ਗਲਤੀ ਨੂੰ ਅਪਣਾ ਲੈਂਦੀ ਹੈ।

ਮੈਂ ਭਰੋਸੇ ਅਤੇ ਮਾਪ ਬਾਰੇ ਇੱਕ ਸਖ਼ਤ ਸਬਕ ਸਿੱਖਿਆ।

ਜੇਕਰ ਤੁਸੀਂ ਉਸ ਸਿਸਟਮ ਨੂੰ ਕੰਮ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੇ ਹੋ ਜੋ ਕੰਮ ਦਾ ਨਿਰਣਾ ਵੀ ਕਰਦਾ ਹੈ, ਤਾਂ ਤੁਹਾਡੇ ਕੋਲ ਇੱਕ ਸਮੱਸਿਆ ਹੈ। ਤੁਸੀਂ ਪ੍ਰੀਖਿਆਰਥੀ ਨੂੰ ਹੀ ਪ੍ਰੀਖਿਅਕ ਬਣਾ ਦਿੱਤਾ ਹੈ। ਇੱਕ ਸੰਭਾਵਨਾਤਮਕ ਮਾਡਲ (probabilistic model) ਕਦੇ ਵੀ ਤੁਹਾਡੇ ਸੱਚ ਦਾ ਇਕਲੌਤਾ ਸਰੋਤ ਨਹੀਂ ਹੋਣਾ ਚਾਹੀਦਾ।

ਮੈਂ ਹੁਣ ਦੋ ਨਵੇਂ ਨਿਯਮਾਂ ਦੀ ਪਾਲਣਾ ਕਰ ਰਿਹਾ ਹਾਂ:

ਇੱਕ ਇਨਸਾਨ ਨੂੰ ਪਹਿਲਾਂ ਆਟੋਮੇਸ਼ਨ ਦਾ ਗਵਾਹ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ। ਕਿਸੇ ਸਵੈ-ਮਾਪਣ ਵਾਲੇ ਸਿਸਟਮ 'ਤੇ ਭਰੋਸਾ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ, ਮੈਂ ਖੁਦ ਇੱਕ ਨਿਸ਼ਚਿਤ (deterministic) ਗਿਣਤੀ ਕਰਦਾ ਹਾਂ। ਮੈਂ ਟਰਮੀਨਲ ਵਿੱਚ ਨੰਬਰਾਂ ਨੂੰ ਆਉਂਦੇ ਦੇਖਦਾ ਹਾਂ। ਮੈਂ ਇਸ ਨਿਯਮ ਤੋਂ ਉਦੋਂ ਤੱਕ ਢਿੱਲ ਨਹੀਂ ਦਿੰਦਾ ਜਦੋਂ ਤੱਕ ਕਈ ਵਾਰ ਚਲਾਉਣ ਤੋਂ ਬਾਅਦ ਮਸ਼ੀਨ ਅਤੇ ਇਨਸਾਨ ਦੇ ਨਤੀਜੇ ਬਿਲਕੁਲ ਮੇਲ ਨਹੀਂ ਖਾਂਦੇ।
ਮਾਪ ਨੂੰ ਦੇਖਣਯੋਗ ਇਕਾਈਆਂ (observable units) ਨਾਲ ਜੋੜੋ। ਮੈਂ ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹਾਂ ਕਿ ਏਜੰਟ ਉਹੀ ਗਿਣਤੀ ਕਰੇ ਜੋ ਇੱਕ ਇਨਸਾਨ ਦੇਖ ਸਕਦਾ ਹੈ। ਜੇਕਰ ਆਬਾਦੀ (population) ਅਸਪਸ਼ਟ ਹੈ, ਤਾਂ ਨੰਬਰ ਭਟਕ ਜਾਣਗੇ। ਜੇਕਰ ਆਬਾਦੀ ਸਪਸ਼ਟ ਹੈ, ਤਾਂ ਅਸੀਂ ਅਸਲ ਵਿੱਚ ਨਤੀਜਿਆਂ ਦੀ ਤੁਲਨਾ ਕਰ ਸਕਦੇ ਹਾਂ।

ਇਹ ਤਰੀਕਾ ਹੌਲੀ ਹੈ। ਇਹ ਹਮੇਸ਼ਾ ਲਈ ਵੱਡੇ ਪੱਧਰ 'ਤੇ (scale) ਨਹੀਂ ਵਧ ਸਕਦਾ। ਪਰ ਇਸੇ ਤਰੀਕੇ ਨਾਲ ਤੁਸੀਂ ਭਰੋਸੇ ਦੀ ਨੀਂਹ ਰੱਖਦੇ ਹੋ।

ਤੁਸੀਂ AI ਨੂੰ ਕੋਡ ਲਿਖਣ ਦੇ ਸਕਦੇ ਹੋ। ਤੁਸੀਂ AI ਨੂੰ ਵਿਸ਼ਲੇਸ਼ਣ (analysis) ਕਰਨ ਦੇ ਸਕਦੇ ਹੋ। ਪਰ ਉਹਨਾਂ ਨੰਬਰਾਂ ਲਈ ਜੋ ਮਾਇਨੇ ਰੱਖਦੇ ਹਨ, ਇੱਕ ਨਿਸ਼ਚਿਤ ਪ੍ਰਕਿਰਿਆ (deterministic process) ਹੀ ਅੰਤਿਮ ਗਵਾਹ ਹੋਣੀ ਚਾਹੀਦੀ ਹੈ।

ਤੁਸੀਂ ਲਕੀਰ ਕਿੱਥੇ ਖਿੱਚਦੇ ਹੋ? ਤੁਸੀਂ ਕਦੋਂ ਫੈਸਲਾ ਕਰਦੇ ਹੋ ਕਿ ਕੋਈ ਨੰਬਰ ਹੱਥ ਨਾਲ ਚੈੱਕ ਕਰਨ ਲਈ ਕਾਫ਼ੀ ਮਹੱਤਵਪੂਰਨ ਹੈ?

ਸਰੋਤ: https://dev.to/josephyeo/my-agent-reported-12-the-real-number-was-13-5864

ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi

My Agent Reported 12. The Real Number Was 13.

Continue reading

𝗧𝗵𝗲 𝗡𝘂𝗹𝗹 𝗜𝗻𝗽𝘂𝘁 𝗧𝗵𝗮𝘁 𝗕𝗿𝗼𝗸𝗲 𝗠𝘆 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻 𝗔𝗴𝗲𝗻𝘁

We Stopped Trusting Models. Then We Stopped Trusting Our Own Numbers.

ਪ੍ਰੋਡਕਸ਼ਨ ਵਿੱਚ AI ਏਜੰਟਾਂ ਨੂੰ ਚਲਾਉਣ ਵੇਲੇ ਮੈਂ ਕੀ ਸਿੱਖਿਆ

The Exact Stack I Use to Build Production AI Agents

ਏਜੈਂਟਿਕ ਲੂਪ: ਇੱਕ ਵਿਹਾਰਕ ਫੀਲਡ ਗਾਈਡ