The Silent Killer of Agentic AI ROI

Translated for your language. Read the original.

AI-assisted draft.

Agentic AI ROI ਦਾ ਚੁੱਪ ਰਹਿਣ ਵਾਲਾ ਕਤਲ

ਤੁਹਾਡੇ Kubernetes pods ਹਰੇ ਹਨ। ਤੁਹਾਡੀ API latency ਘੱਟ ਹੈ। ਤੁਹਾਡਾ LLM provider 99.9% uptime ਦਿਖਾ ਰਿਹਾ ਹੈ।

ਫਿਰ ਵੀ, ਤੁਹਾਡੇ ਆਟੋਮੇਟਡ ਲੋਨ ਸਿਸਟਮ ਨੇ ਸਿਰਫ਼ ਤਿੰਨ ਘੰਟਿਆਂ ਵਿੱਚ ਆਪਣਾ ਪੂਰਾ ਮਹੀਨਾਵਾਰ API ਬਜਟ ਖ਼ਤਮ ਕਰ ਦਿੱਤਾ। ਦੋ agents ਇੱਕ ਲੂਪ (loop) ਵਿੱਚ ਫਸ ਗਏ।

ਇਹ "ਸਿਹਤਮੰਦ ਪਰ ਭਰਮ (Hallucinating)" ਵਾਲਾ ਵਿਰੋਧਾਭਾਸ ਹੈ।

ਰਵਾਇਤੀ ਸਾਫਟਵੇਅਰ ਵਿੱਚ, ਇੱਕ ਸਿਸਟਮ ਜਾਂ ਤਾਂ ਚੱਲ ਰਿਹਾ ਹੁੰਦਾ ਹੈ ਜਾਂ ਬੰਦ। ਇੱਕ agentic mesh ਵਿੱਚ, ਇੱਕ ਸਿਸਟਮ ਸਿਹਤਮੰਦ ਦਿਖ ਸਕਦਾ ਹੈ ਪਰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਫੇਲ ਹੋ ਸਕਦਾ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ agents ਲਈ ਸਟੈਂਡਰਡ Site Reliability Engineering (SRE) ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਗਲਤ ਸੰਕੇਤਾਂ ਦੀ ਨਿਗਰਾਨੀ ਕਰ ਰਹੇ ਹੋ। ਤੁਸੀਂ ਇੱਕ ਅਜਿਹੇ ਮਰੀਜ਼ ਦੇ ਦਿਲ ਦੀ ਧੜਕਣ ਨੂੰ ਮਾਪ ਰਹੇ ਹੋ ਜੋ ਅਸਲ ਵਿੱਚ ਦਿਮਾਗੀ ਤੌਰ 'ਤੇ ਮਰ ਚੁੱਕਾ ਹੈ।

ਸਟੈਂਡਰਡ ਇਨਫਰਾਸਟ੍ਰਕਚਰ agentic collapse ਨੂੰ ਰੋਕਣ ਵਿੱਚ ਕਿਉਂ ਅਸਫਲ ਰਹਿੰਦਾ ਹੈ?

ਰਵਾਇਤੀ SRE ਨਿਰਧਾਰਤ (deterministic) ਸਿਸਟਮਾਂ ਲਈ ਬਣਾਇਆ ਗਿਆ ਹੈ। ਜਦੋਂ ਕੋਈ ਸਰਵਿਸ ਫੇਲ ਹੁੰਦੀ ਹੈ, ਤਾਂ ਇਹ ਇੱਕ error ਦਿੰਦੀ ਹੈ। ਇਹ binary ਹੁੰਦਾ ਹੈ। Agent ਦੀਆਂ ਅਸਫਲਤਾਵਾਂ ਵੱਖਰੀਆਂ ਹੁੰਦੀਆਂ ਹਨ। ਇੱਕ agent crash ਨਹੀਂ ਹੁੰਦਾ। ਇਹ drift ਕਰਦਾ ਹੈ। ਇਹ time out ਨਹੀਂ ਹੁੰਦਾ। ਇਹ ਇੱਕ ਅਜਿਹਾ parameter hallucinate ਕਰਦਾ ਹੈ ਜੋ ਕਈ ਕਦਮਾਂ ਬਾਅਦ ਇੱਕ ਚੁੱਪ ਰਹਿਣ ਵਾਲੀ ਅਸਫਲਤਾ (silent failure) ਦਾ ਕਾਰਨ ਬਣਦਾ ਹੈ।

ਅਸੀਂ ਸਿੰਗਲ ਬੋਟਸ ਤੋਂ ਐਂਟਰਪ੍ਰਾਈਜ਼ agent fabrics ਵੱਲ ਜਾਣ ਦੌਰਾਨ ਇਹ ਪਾੜਾ ਦੇਖਦੇ ਹਾਂ। ਇੱਕ ਟੀਮ ਇੱਕ benchmark 'ਤੇ 95% ਸ਼ੁੱਧਤਾ (accuracy) ਦੀ ਰਿਪੋਰਟ ਕਰਦੀ ਹੈ, ਪਰ ਸਿਸਟਮ production ਵਿੱਚ ਫੇਲ ਹੋ ਜਾਂਦਾ ਹੈ। Benchmarks ਇਹ ਮਾਪਦੇ ਹਨ ਕਿ ਕੀ ਕੋਈ ਮਾਡਲ ਸਵਾਲ ਦਾ ਜਵਾਬ ਦੇ ਸਕਦਾ ਹੈ। ਉਹ ਇਹ ਨਹੀਂ ਮਾਪਦੇ ਕਿ ਕੀ ਇੱਕ ਸਿਸਟਮ ਚਾਰ agents ਵਾਲੇ 12-ਕਦਮਾਂ ਦੇ workflow ਵਿੱਚ state ਨੂੰ ਬਣਾਈ ਰੱਖ ਸਕਦਾ ਹੈ।

ਤੁਹਾਨੂੰ Agent Reliability Engineering (ARE) ਦੀ ਲੋੜ ਹੈ।

ਰਵਾਇਤੀ SRE binary states ਨੂੰ ਪ੍ਰਬੰਧਿਤ ਕਰਦਾ ਹੈ। ARE probability distributions ਨੂੰ ਪ੍ਰਬੰਧਿਤ ਕਰਦਾ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ ਸਿਰਫ਼ CPU ਅਤੇ memory ਨੂੰ ਟ੍ਰੈਕ ਕਰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ agent ਦੀਆਂ ਅਸਫਲਤਾਵਾਂ ਪ੍ਰਤੀ ਅੰਨ੍ਹੇ ਹੋ।

Multi-agent ਸਿਸਟਮਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਸਿਰਫ਼ ਵਧਦੀਆਂ ਹੀ ਨਹੀਂ, ਸਗੋਂ ਉਹ ਗੁਣਾ ਹੋ ਜਾਂਦੀਆਂ ਹਨ। ਕਿਉਂਕਿ agents ਦੂਜੇ agents ਦੇ output ਨੂੰ ਸੱਚ ਮੰਨਦੇ ਹਨ, ਪਹਿਲੇ ਕਦਮ ਵਿੱਚ ਇੱਕ ਛੋਟੀ ਜਿਹੀ ਗਲਤੀ ਪੰਜਵੇਂ ਕਦਮ ਤੱਕ ਇੱਕ ਤਬਾਹੀ ਬਣ ਜਾਂਦੀ ਹੈ।

ਆਮ ਅਸਫਲਤਾ ਦੇ ਤਰੀਕੇ (failure modes) ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

Agentic infinite loops
State drift
Prompt injection cascades
Tool-call hallucinations

ਇੱਕ ਖ਼ਤਰਨਾਕ ਉਦਾਹਰਨ: ਇੱਕ agent ਇੱਕ update tool ਨੂੰ ਕਾਲ ਕਰਦਾ ਹੈ। ਇਹ ਇੱਕ ਅਜਿਹਾ parameter ਬਣਾ ਲੈਂਦਾ ਹੈ ਜੋ ਮੌਜੂਦ ਨਹੀਂ ਹੈ। API ਵਾਧੂ parameter ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰ ਦਿੰਦੀ ਹੈ ਅਤੇ 200 OK ਵਾਪਸ ਕਰ ਦਿੰਦੀ ਹੈ। Agent ਨੂੰ ਲੱਗਦਾ ਹੈ ਕਿ ਉਹ ਸਫਲ ਰਿਹਾ, ਪਰ business logic ਚੁੱਪਚਾਪ ਫੇਲ ਹੋ ਗਿਆ।

ARE "intent-action-outcome" ਲੂਪ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦਾ ਹੈ। ਤੁਸੀਂ ਸਿਰਫ਼ ਇਹ ਨਿਗਰਾਨੀ ਨਹੀਂ ਕਰਦੇ ਕਿ ਕੀ ਇੱਕ agent ਨੇ tool ਨੂੰ ਕਾਲ ਕੀਤਾ। ਤੁਸੀਂ ਇਹ ਨਿਗਰਾਨੀ ਕਰਦੇ ਹੋ ਕਿ ਕੀ ਉਹ ਕਾਲ ਅਸਲ intent ਨਾਲ ਮੇਲ ਖਾਂਦੀ ਸੀ ਅਤੇ ਕੀ outcome ਨੇ ਟੀਚੇ ਨੂੰ ਪ੍ਰਾਪਤ ਕੀਤਾ।

Agent Reliability Engineer (ARE) ਦੀ ਭੂਮਿਕਾ ਇਹ ਸੰਭਾਲਦੀ ਹੈ:

Intent Analysis: ਇਹ ਪਛਾਣਨਾ ਕਿ ਕਦੋਂ ਇੱਕ agent ਟੀਚੇ ਤੋਂ ਭਟਕਦਾ ਹੈ।
Guardrail Tuning: ਲੂਪਸ ਨੂੰ ਰੋਕਣ ਲਈ constraints ਨੂੰ ਐਡਜਸਟ ਕਰਨਾ।
Dependability Mapping: ਇਹ ਫੈਸਲਾ ਕਰਨਾ ਕਿ ਕਦੋਂ ਇੱਕ agent ਨੂੰ ਮਨੁੱਖ ਨੂੰ ਕੰਮ ਸੌਂਪਣਾ ਚਾਹੀਦਾ ਹੈ।
Audit Architecture: ਅੰਦਰੂਨੀ ਤਰਕ (reasoning) ਅਤੇ state ਤਬਦੀਲੀਆਂ ਨੂੰ ਕੈਪਚਰ ਕਰਨਾ।

ਸ਼ੁੱਧਤਾ (accuracy) ਬਾਰੇ ਗੱਲ ਕਰਨਾ ਬੰਦ ਕਰੋ। System Dependability ਬਾਰੇ ਗੱਲ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰੋ।

ਤੁਸੀਂ ਮਨੁੱਖੀ ਦਖਲਅੰਦਾਜ਼ੀ ਦੀ ਲਾਗਤ ਨੂੰ ਮਾਪ ਕੇ ਇਸ ਨੂੰ CFO ਨੂੰ ਜਾਇਜ਼ ਠਹਿਰਾ ਸਕਦੇ ਹੋ। ਹਰ ਵਾਰ ਜਦੋਂ ਕੋਈ ਮਨੁੱਖ agent ਦੀ ਗਲਤੀ ਨੂੰ ਸੁਧਾਰਦਾ ਹੈ, ਉਹ ਇੱਕ reliability failure ਹੁੰਦਾ ਹੈ। ਉਹਨਾਂ ਘੰਟਿਆਂ ਨੂੰ ਆਪਣੇ ਮਾਹਰਾਂ ਦੀ ਤਨਖਾਹ ਨਾਲ ਗੁਣਾ ਕਰੋ। ਅਭਰੋਸੇਯੋਗਤਾ (unreliability) ਦੀ ਲਾਗਤ ਸਪਸ਼ਟ ਹੋ ਜਾਂਦੀ ਹੈ।

Agentic Error Budgets ਦੀ ਵਰਤੋਂ ਕਰੋ। ਇੱਕ ਸਧਾਰਨ email summarizer ਲਈ, ਤੁਹਾਡਾ error budget ਉੱਚਾ ਹੈ। ਇੱਕ ਅਜਿਹੇ ਸਿਸਟਮ ਲਈ ਜੋ $10M ਟ੍ਰਾਂਸਫਰ ਕਰਦਾ ਹੈ, ਤੁਹਾਡਾ error budget ਜ਼ੀਰੋ ਹੈ।

AI ਨੂੰ ਇੱਕ software feature ਵਜੋਂ ਨਾ ਸਮਝੋ। ਇਸਨੂੰ ਇੱਕ systemic risk ਵਜੋਂ ਲਓ। ਇਸ ਯੁੱਗ ਦੇ ਜੇਤੂਆਂ ਕੋਲ ਸਭ ਤੋਂ ਸਮਾਰਟ ਮਾਡਲ ਨਹੀਂ ਹੋਣਗੇ। ਉਹਨਾਂ ਕੋਲ ਸਭ ਤੋਂ ਭਰੋਸੇਯੋਗ (dependable) ਸਿਸਟਮ ਹੋਣਗੇ।

Source: https://dev.to/omnithium/the-silent-killer-of-agentic-ai-roi-why-multi-agent-reliability-needs-a-new-sre-discipline-5h7e

Optional learning community: https://t.me/GyaanSetuAi

The Silent Killer of Agentic AI ROI

Agentic AI ROI ਦਾ ਚੁੱਪ ਰਹਿਣ ਵਾਲਾ ਕਤਲ

Continue reading

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗛𝗮𝘃𝗲 𝗔 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗣𝗿𝗼𝗯𝗹𝗲𝗺