Evaluating Agentic AI In The Age Of LLM Benchmarks

Translated for your language. Read the original.

AI-assisted draft.

Evaluating Agentic AI In The Age Of LLM Benchmarks

LLM Benchmarks ਦੇ ਯੁੱਗ ਵਿੱਚ Agentic AI ਦਾ ਮੁਲਾਂਕਣ

ਜ਼ਿਆਦਾਤਰ AI ਟੈਸਟ ਇੱਕ ਸਧਾਰਨ ਪੈਟਰਨ ਦੀ ਪਾਲਣਾ ਕਰਦੇ ਹਨ। ਤੁਸੀਂ ਇੱਕ ਮਾਡਲ ਨੂੰ ਪ੍ਰੋਂਪਟ (prompt) ਦਿੰਦੇ ਹੋ। ਤੁਸੀਂ ਜਵਾਬ ਦੀ ਤੁਲਨਾ ਇੱਕ ਰੈਫਰੈਂਸ ਨਾਲ ਕਰਦੇ ਹੋ। ਤੁਸੀਂ ਨਤੀਜੇ ਨੂੰ ਸਕੋਰ ਦਿੰਦੇ ਹੋ।

ਇਹ ਸਾਰਾਂਸ਼ (summaries) ਲਈ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਵਰਗੀਕਰਨ (classification) ਲਈ ਕੰਮ ਕਰਦਾ ਹੈ। ਪਰ ਇਹ ਉਦੋਂ ਅਸਫਲ ਹੋ ਜਾਂਦਾ ਹੈ ਜਦੋਂ ਇੱਕ ਮਾਡਲ ਨੂੰ ਬਦਲਦੇ ਵਾਤਾਵਰਣ ਵਿੱਚ ਕੰਮ ਕਰਨਾ ਪੈਂਦਾ ਹੈ।

'The Age of LLM' ਪੇਪਰ ਇੱਕ ਬਿਹਤਰ ਤਰੀਕਾ ਪੇਸ਼ ਕਰਦਾ ਹੈ। ਇਹ ਇੱਕ ਗਰਿੱਡ (grid) 'ਤੇ 1v1 ਖੇਡ ਹੈ। ਦੋ ਮਾਡਲ 'ਫੌਗ ਆਫ ਵਾਰ' (fog of war) ਦੇ ਅਧੀਨ ਮੁਕਾਬਲਾ ਕਰਦੇ ਹਨ। ਉਹ ਸਭ ਕੁਝ ਨਹੀਂ ਦੇਖ ਸਕਦੇ। ਦੁਸ਼ਮਣ ਦੀਆਂ ਇਕਾਈਆਂ (units) ਨੂੰ ਲੱਭਣ ਲਈ ਉਹਨਾਂ ਨੂੰ ਖੋਜ (scout) ਕਰਨੀ ਪੈਂਦੀ ਹੈ ਜਾਂ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣਾ ਪੈਂਦਾ ਹੈ। ਉਹਨਾਂ ਨੂੰ ਸੌਦਿਆਂ ਜਾਂ ਅੰਤਿਮ ਚੇਤਾਵਨੀਆਂ (ultimatums) ਲਈ ਡਿਪਲੋਮੇਸੀ (diplomacy) ਦੀ ਵਰਤੋਂ ਕਰਨੀ ਪੈਂਦੀ ਹੈ।

ਹਰ ਚਾਲ ਨੂੰ ਇੱਕ ਸਖ਼ਤ JSON schema ਦੀ ਪਾਲਣਾ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ। ਜੇਕਰ ਕੋਈ ਚਾਲ ਗੈਰ-ਕਾਨੂੰਨੀ ਹੈ, ਤਾਂ ਸਿਸਟਮ ਇਸਨੂੰ ਰੱਦ ਕਰ ਦਿੰਦਾ ਹੈ।

ਇਹ ਟੈਸਟ ਖਾਸ ਹੁਨਰਾਂ ਨੂੰ ਮਾਪਦਾ ਹੈ:

ਸਟੇਟ ਟ੍ਰੈਕਿੰਗ (State tracking): ਕੀ ਮਾਡਲ ਨੂੰ ਯਾਦ ਰਹਿੰਦਾ ਹੈ ਕਿ ਉਸਨੇ ਕੀ ਦੇਖਿਆ ਸੀ ਅਤੇ ਉਸਨੇ ਕੀ ਗੁਆ ਦਿੱਤਾ ਸੀ?
ਬੀਲੀਫ ਮੈਨੇਜਮੈਂਟ (Belief management): ਕੀ ਇਹ ਅਧੂਰੀ ਜਾਣਕਾਰੀ ਨਾਲ ਸਮਝਦਾਰੀ ਨਾਲ ਕੰਮ ਕਰਦਾ ਹੈ?
ਐਕਸ਼ਨ ਵੈਲਿਡਿਟੀ (Action validity): ਕੀ ਇਹ ਵਾਤਾਵਰਣ ਦੇ ਨਿਯਮਾਂ ਦੀ ਪਾਲਣਾ ਕਰਦਾ ਹੈ?
ਲੌਂਗ-ਹੋਰਾਈਜ਼ਨ ਰਣਨੀਤੀ (Long-horizon strategy): ਕੀ ਇਹ ਚਾਲਾਂ ਦਾ ਅਜਿਹਾ ਕ੍ਰਮ ਚੁਣ ਸਕਦਾ ਹੈ ਜੋ ਕਿਸੇ ਟੀਚੇ ਵੱਲ ਲੈ ਕੇ ਜਾਵੇ?

ਇੱਕ ਮਾਡਲ ਸੁਣਨ ਵਿੱਚ ਫਲੂਐਂਟ (fluent) ਲੱਗ ਸਕਦਾ ਹੈ ਪਰ ਅਮਲੀ ਰੂਪ ਵਿੱਚ ਅਸਫਲ ਹੋ ਸਕਦਾ ਹੈ। ਇਹ ਆਪਣੀ ਸਟੇਟ ਭੁੱਲ ਸਕਦਾ ਹੈ ਜਾਂ ਗਲਤ ਟੂਲ ਕਾਲ (tool calls) ਕਰ ਸਕਦਾ ਹੈ।

ਨਤੀਜੇ ਇੱਕ ਪੈਟਰਨ ਦਿਖਾਉਂਦੇ ਹਨ। ਬਹੁਤ ਸਾਰੇ ਮਾਡਲ ਅਨਿਸ਼ਚਿਤਤਾ (uncertainty) ਦੇ ਅਧੀਨ ਸਧਾਰਨ ਜਾਲਾਂ ਵਿੱਚ ਫਸ ਜਾਂਦੇ ਹਨ। ਜ਼ਿਆਦਾਤਰ ਮਾਡਲਾਂ ਨੇ ਹਮਲਾਵਰ ਫੌਜੀ ਚਾਲਾਂ ਚੁਣੀਆਂ। ਡਿਪਲੋਮੇਸੀ ਹੋਈ, ਪਰ ਸਮਝੌਤੇ ਸ਼ਾਇਦ ਹੀ ਕਦੇ ਪੂਰੇ ਹੋਏ। ਬਹੁਤ ਸਾਰੀਆਂ ਗਲਤੀਆਂ ਮਾੜੀ ਸਟੇਟ ਟ੍ਰੈਕਿੰਗ ਕਾਰਨ ਹੋਈਆਂ।

ਸਟੈਂਡਰਡ ਬੈਂਚਮਾਰਕਸ ਇਹਨਾਂ ਅਸਫਲਤਾਵਾਂ ਨੂੰ ਨਹੀਂ ਫੜ ਪਾਉਂਦੇ। ਇੱਕ ਮਾਡਲ ਇੱਕ ਵਧੀਆ ਵਿਆਖਿਆ ਲਿਖ ਸਕਦਾ ਹੈ ਪਰ ਇੱਕ ਲੁਕੀ ਹੋਈ ਇਕਾਈ (unit) ਨੂੰ ਟ੍ਰੈਕ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਹੋ ਸਕਦਾ ਹੈ। ਤੁਸੀਂ ਇਹ ਉਦੋਂ ਹੀ ਦੇਖ ਸਕਦੇ ਹੋ ਜਦੋਂ ਵਾਤਾਵਰਣ ਮਾਡਲ ਨੂੰ ਕੰਮ ਕਰਨ ਲਈ ਮਜਬੂਰ ਕਰਦਾ ਹੈ।

ਮੌਜੂਦਾ AI ਕੰਮ ਅਕਸਰ ਟੂਲ ਦੀ ਵਰਤੋਂ (tool use) 'ਤੇ ਕੇਂਦਰਿਤ ਹੁੰਦਾ ਹੈ। ਟੂਲ ਦੀ ਵਰਤੋਂ ਜ਼ਰੂਰੀ ਹੈ, ਪਰ ਇਹ ਕਾਫ਼ੀ ਨਹੀਂ ਹੈ। ਇੱਕ ਅਸਲੀ ਏਜੰਟ ਨੂੰ ਸੰਦਰਭ (context) ਬਣਾਈ ਰੱਖਣਾ ਚਾਹੀਦਾ ਹੈ ਅਤੇ ਚੀਜ਼ਾਂ ਬਦਲਣ 'ਤੇ ਸੁਧਾਰ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ।

ਉਦਯੋਗ ਚੈਟ ਦੀ ਗੁਣਵੱਤਾ ਤੋਂ ਹਟ ਕੇ ਨਤੀਜਿਆਂ (outcomes) ਵੱਲ ਵਧ ਰਿਹਾ ਹੈ। ਲਾਭਦਾਇਕ ਸਿਸਟਮਾਂ ਨੂੰ ਇਸ ਗੱਲ ਨਾਲ ਮਾਪਿਆ ਜਾਂਦਾ ਹੈ ਕਿ ਕੀ ਉਹ ਕੰਮ ਪੂਰਾ ਕਰਦੇ ਹਨ, ਨਾ ਕਿ ਇਸ ਨਾਲ ਕਿ ਉਹ ਕਿੰਨਾ ਵਧੀਆ ਲਿਖਦੇ ਹਨ।

ਜੇਕਰ ਕੋਈ ਏਜੰਟ ਬੀਲੀਫ ਸਟੇਟ (belief state) ਬਣਾਈ ਨਹੀਂ ਰੱਖ ਸਕਦਾ, ਤਾਂ ਉਹ ਰਣਨੀਤਕ (strategic) ਨਹੀਂ ਹੈ। ਜੇਕਰ ਇਹ schema ਦੀ ਪਾਲਣਾ ਨਹੀਂ ਕਰ ਸਕਦਾ, ਤਾਂ ਇਸਦੀ ਟੂਲ ਵਰਤੋਂ ਕਮਜ਼ੋਰ ਹੈ।

ਅਸਲੀ ਏਜੈਂਟਿਕ ਸਮਰੱਥਾ ਲਈ ਦੋ ਚੀਜ਼ਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ:

ਯੋਜਨਾ ਬਣਾਉਣ ਦੀ ਯੋਗਤਾ।
ਅਨਿਸ਼ਚਿਤਤਾ ਦੇ ਅਧੀਨ ਕਾਰਜਕਾਰੀ (execute) ਹੋਣ ਦੀ ਯੋਗਤਾ।

ਸਾਫਟਵੇਅਰ ਵਿੱਚ, ਮਾੜਾ ਆਉਟਪੁੱਟ ਇੱਕ ਬੱਗ (bug) ਹੁੰਦਾ ਹੈ। AI ਏਜੰਟਾਂ ਵਿੱਚ, ਮਾੜਾ ਆਉਟਪੁੱਟ ਅਕਸਰ ਇੱਕ ਚੁੱਪ ਅਸਫਲਤਾ (silent failure) ਹੁੰਦੀ ਹੈ। ਇੱਕ ਟੂਲ ਕਾਲ ਕੁਝ ਨਹੀਂ ਕਰਦੀ। ਇੱਕ ਲੁਕੀ ਹੋਈ ਧਾਰਨਾ ਗਲਤ ਹੁੰਦੀ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ ਸਿਰਫ ਅੰਤਿਮ ਜਵਾਬ ਨੂੰ ਸਕੋਰ ਕਰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਸਮੱਸਿਆ ਨੂੰ ਗੁਆ ਦਿੰਦੇ ਹੋ।

ਸਾਨੂੰ ਇਹਨਾਂ ਲਈ ਟੈਸਟ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ:

ਅੰਸ਼ਕ ਨਿਰੀਖਣ (Partial observability)
ਲੁਕੀ ਹੋਈ ਸਟੇਟ (Hidden state)
ਲੌਂਗ-ਹੋਰਾਈਜ਼ਨ ਤਾਲਮੇਲ (Long-horizon coordination)
ਐਕਸ਼ਨ ਵੈਲਿਡਿਟੀ (Action validity)
ਗਲਤੀਆਂ ਤੋਂ ਸੁਧਾਰ (Recovery from mistakes)

ਮੁਲਾਂਕਣ ਨੂੰ ਇਸ ਗੱਲ ਦੇ ਨੇੜੇ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਇਹ ਸਿਸਟਮ ਅਸਲ ਦੁਨੀਆ ਵਿੱਚ ਕਿਵੇਂ ਕੰਮ ਕਰਦੇ ਹਨ।

Source: https://dev.to/prabhakar_chaudhary_7afe4/what-the-age-of-llm-benchmark-says-about-evaluating-agentic-ai-2hfc

Optional learning community: https://t.me/GyaanSetuAi

Evaluating Agentic AI In The Age Of LLM Benchmarks

Continue reading

𝗦𝗰𝗼𝗿𝗶𝗻𝗴 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀: 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗠𝗲𝘁𝗿𝗶𝗰𝘀 + 𝗮𝗻 𝗟𝗟𝗠 𝗝𝘂𝗱𝗴𝗲

𝗗𝗼𝗻'𝘁 𝗨𝘀𝗲 𝗔𝗻 𝗟𝗟𝗠 𝗧𝗼 𝗗𝗲𝗰𝗶𝗱𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗔𝗰𝘁𝗶𝗼𝗻𝘀

ਏਜੈਂਟਿਕ ਲੂਪ: ਇੱਕ ਵਿਹਾਰਕ ਫੀਲਡ ਗਾਈਡ

AI ਏਜੰਟ ਦਾ ਮੁਲਾਂਕਣ ਬਹੁਤ ਜਲਦੀ ਖਤਮ ਹੋ ਜਾਂਦਾ ਹੈ

Observability in Agentic AI