LLM Benchmarks ਦੇ ਯੁੱਗ ਵਿੱਚ Agentic AI ਦਾ ਮੁਲਾਂਕਣ
ਜ਼ਿਆਦਾਤਰ AI ਟੈਸਟ ਇੱਕ ਸਧਾਰਨ ਪੈਟਰਨ ਦੀ ਪਾਲਣਾ ਕਰਦੇ ਹਨ। ਤੁਸੀਂ ਇੱਕ ਮਾਡਲ ਨੂੰ ਪ੍ਰੋਂਪਟ (prompt) ਦਿੰਦੇ ਹੋ। ਤੁਸੀਂ ਜਵਾਬ ਦੀ ਤੁਲਨਾ ਇੱਕ ਰੈਫਰੈਂਸ ਨਾਲ ਕਰਦੇ ਹੋ। ਤੁਸੀਂ ਨਤੀਜੇ ਨੂੰ ਸਕੋਰ ਦਿੰਦੇ ਹੋ।
ਇਹ ਸਾਰਾਂਸ਼ (summaries) ਲਈ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਵਰਗੀਕਰਨ (classification) ਲਈ ਕੰਮ ਕਰਦਾ ਹੈ। ਪਰ ਇਹ ਉਦੋਂ ਅਸਫਲ ਹੋ ਜਾਂਦਾ ਹੈ ਜਦੋਂ ਇੱਕ ਮਾਡਲ ਨੂੰ ਬਦਲਦੇ ਵਾਤਾਵਰਣ ਵਿੱਚ ਕੰਮ ਕਰਨਾ ਪੈਂਦਾ ਹੈ।
'The Age of LLM' ਪੇਪਰ ਇੱਕ ਬਿਹਤਰ ਤਰੀਕਾ ਪੇਸ਼ ਕਰਦਾ ਹੈ। ਇਹ ਇੱਕ ਗਰਿੱਡ (grid) 'ਤੇ 1v1 ਖੇਡ ਹੈ। ਦੋ ਮਾਡਲ 'ਫੌਗ ਆਫ ਵਾਰ' (fog of war) ਦੇ ਅਧੀਨ ਮੁਕਾਬਲਾ ਕਰਦੇ ਹਨ। ਉਹ ਸਭ ਕੁਝ ਨਹੀਂ ਦੇਖ ਸਕਦੇ। ਦੁਸ਼ਮਣ ਦੀਆਂ ਇਕਾਈਆਂ (units) ਨੂੰ ਲੱਭਣ ਲਈ ਉਹਨਾਂ ਨੂੰ ਖੋਜ (scout) ਕਰਨੀ ਪੈਂਦੀ ਹੈ ਜਾਂ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣਾ ਪੈਂਦਾ ਹੈ। ਉਹਨਾਂ ਨੂੰ ਸੌਦਿਆਂ ਜਾਂ ਅੰਤਿਮ ਚੇਤਾਵਨੀਆਂ (ultimatums) ਲਈ ਡਿਪਲੋਮੇਸੀ (diplomacy) ਦੀ ਵਰਤੋਂ ਕਰਨੀ ਪੈਂਦੀ ਹੈ।
ਹਰ ਚਾਲ ਨੂੰ ਇੱਕ ਸਖ਼ਤ JSON schema ਦੀ ਪਾਲਣਾ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ। ਜੇਕਰ ਕੋਈ ਚਾਲ ਗੈਰ-ਕਾਨੂੰਨੀ ਹੈ, ਤਾਂ ਸਿਸਟਮ ਇਸਨੂੰ ਰੱਦ ਕਰ ਦਿੰਦਾ ਹੈ।
ਇਹ ਟੈਸਟ ਖਾਸ ਹੁਨਰਾਂ ਨੂੰ ਮਾਪਦਾ ਹੈ:
- ਸਟੇਟ ਟ੍ਰੈਕਿੰਗ (State tracking): ਕੀ ਮਾਡਲ ਨੂੰ ਯਾਦ ਰਹਿੰਦਾ ਹੈ ਕਿ ਉਸਨੇ ਕੀ ਦੇਖਿਆ ਸੀ ਅਤੇ ਉਸਨੇ ਕੀ ਗੁਆ ਦਿੱਤਾ ਸੀ?
- ਬੀਲੀਫ ਮੈਨੇਜਮੈਂਟ (Belief management): ਕੀ ਇਹ ਅਧੂਰੀ ਜਾਣਕਾਰੀ ਨਾਲ ਸਮਝਦਾਰੀ ਨਾਲ ਕੰਮ ਕਰਦਾ ਹੈ?
- ਐਕਸ਼ਨ ਵੈਲਿਡਿਟੀ (Action validity): ਕੀ ਇਹ ਵਾਤਾਵਰਣ ਦੇ ਨਿਯਮਾਂ ਦੀ ਪਾਲਣਾ ਕਰਦਾ ਹੈ?
- ਲੌਂਗ-ਹੋਰਾਈਜ਼ਨ ਰਣਨੀਤੀ (Long-horizon strategy): ਕੀ ਇਹ ਚਾਲਾਂ ਦਾ ਅਜਿਹਾ ਕ੍ਰਮ ਚੁਣ ਸਕਦਾ ਹੈ ਜੋ ਕਿਸੇ ਟੀਚੇ ਵੱਲ ਲੈ ਕੇ ਜਾਵੇ?
ਇੱਕ ਮਾਡਲ ਸੁਣਨ ਵਿੱਚ ਫਲੂਐਂਟ (fluent) ਲੱਗ ਸਕਦਾ ਹੈ ਪਰ ਅਮਲੀ ਰੂਪ ਵਿੱਚ ਅਸਫਲ ਹੋ ਸਕਦਾ ਹੈ। ਇਹ ਆਪਣੀ ਸਟੇਟ ਭੁੱਲ ਸਕਦਾ ਹੈ ਜਾਂ ਗਲਤ ਟੂਲ ਕਾਲ (tool calls) ਕਰ ਸਕਦਾ ਹੈ।
ਨਤੀਜੇ ਇੱਕ ਪੈਟਰਨ ਦਿਖਾਉਂਦੇ ਹਨ। ਬਹੁਤ ਸਾਰੇ ਮਾਡਲ ਅਨਿਸ਼ਚਿਤਤਾ (uncertainty) ਦੇ ਅਧੀਨ ਸਧਾਰਨ ਜਾਲਾਂ ਵਿੱਚ ਫਸ ਜਾਂਦੇ ਹਨ। ਜ਼ਿਆਦਾਤਰ ਮਾਡਲਾਂ ਨੇ ਹਮਲਾਵਰ ਫੌਜੀ ਚਾਲਾਂ ਚੁਣੀਆਂ। ਡਿਪਲੋਮੇਸੀ ਹੋਈ, ਪਰ ਸਮਝੌਤੇ ਸ਼ਾਇਦ ਹੀ ਕਦੇ ਪੂਰੇ ਹੋਏ। ਬਹੁਤ ਸਾਰੀਆਂ ਗਲਤੀਆਂ ਮਾੜੀ ਸਟੇਟ ਟ੍ਰੈਕਿੰਗ ਕਾਰਨ ਹੋਈਆਂ।
ਸਟੈਂਡਰਡ ਬੈਂਚਮਾਰਕਸ ਇਹਨਾਂ ਅਸਫਲਤਾਵਾਂ ਨੂੰ ਨਹੀਂ ਫੜ ਪਾਉਂਦੇ। ਇੱਕ ਮਾਡਲ ਇੱਕ ਵਧੀਆ ਵਿਆਖਿਆ ਲਿਖ ਸਕਦਾ ਹੈ ਪਰ ਇੱਕ ਲੁਕੀ ਹੋਈ ਇਕਾਈ (unit) ਨੂੰ ਟ੍ਰੈਕ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਹੋ ਸਕਦਾ ਹੈ। ਤੁਸੀਂ ਇਹ ਉਦੋਂ ਹੀ ਦੇਖ ਸਕਦੇ ਹੋ ਜਦੋਂ ਵਾਤਾਵਰਣ ਮਾਡਲ ਨੂੰ ਕੰਮ ਕਰਨ ਲਈ ਮਜਬੂਰ ਕਰਦਾ ਹੈ।
ਮੌਜੂਦਾ AI ਕੰਮ ਅਕਸਰ ਟੂਲ ਦੀ ਵਰਤੋਂ (tool use) 'ਤੇ ਕੇਂਦਰਿਤ ਹੁੰਦਾ ਹੈ। ਟੂਲ ਦੀ ਵਰਤੋਂ ਜ਼ਰੂਰੀ ਹੈ, ਪਰ ਇਹ ਕਾਫ਼ੀ ਨਹੀਂ ਹੈ। ਇੱਕ ਅਸਲੀ ਏਜੰਟ ਨੂੰ ਸੰਦਰਭ (context) ਬਣਾਈ ਰੱਖਣਾ ਚਾਹੀਦਾ ਹੈ ਅਤੇ ਚੀਜ਼ਾਂ ਬਦਲਣ 'ਤੇ ਸੁਧਾਰ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ।
ਉਦਯੋਗ ਚੈਟ ਦੀ ਗੁਣਵੱਤਾ ਤੋਂ ਹਟ ਕੇ ਨਤੀਜਿਆਂ (outcomes) ਵੱਲ ਵਧ ਰਿਹਾ ਹੈ। ਲਾਭਦਾਇਕ ਸਿਸਟਮਾਂ ਨੂੰ ਇਸ ਗੱਲ ਨਾਲ ਮਾਪਿਆ ਜਾਂਦਾ ਹੈ ਕਿ ਕੀ ਉਹ ਕੰਮ ਪੂਰਾ ਕਰਦੇ ਹਨ, ਨਾ ਕਿ ਇਸ ਨਾਲ ਕਿ ਉਹ ਕਿੰਨਾ ਵਧੀਆ ਲਿਖਦੇ ਹਨ।
ਜੇਕਰ ਕੋਈ ਏਜੰਟ ਬੀਲੀਫ ਸਟੇਟ (belief state) ਬਣਾਈ ਨਹੀਂ ਰੱਖ ਸਕਦਾ, ਤਾਂ ਉਹ ਰਣਨੀਤਕ (strategic) ਨਹੀਂ ਹੈ। ਜੇਕਰ ਇਹ schema ਦੀ ਪਾਲਣਾ ਨਹੀਂ ਕਰ ਸਕਦਾ, ਤਾਂ ਇਸਦੀ ਟੂਲ ਵਰਤੋਂ ਕਮਜ਼ੋਰ ਹੈ।
ਅਸਲੀ ਏਜੈਂਟਿਕ ਸਮਰੱਥਾ ਲਈ ਦੋ ਚੀਜ਼ਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ:
- ਯੋਜਨਾ ਬਣਾਉਣ ਦੀ ਯੋਗਤਾ।
- ਅਨਿਸ਼ਚਿਤਤਾ ਦੇ ਅਧੀਨ ਕਾਰਜਕਾਰੀ (execute) ਹੋਣ ਦੀ ਯੋਗਤਾ।
ਸਾਫਟਵੇਅਰ ਵਿੱਚ, ਮਾੜਾ ਆਉਟਪੁੱਟ ਇੱਕ ਬੱਗ (bug) ਹੁੰਦਾ ਹੈ। AI ਏਜੰਟਾਂ ਵਿੱਚ, ਮਾੜਾ ਆਉਟਪੁੱਟ ਅਕਸਰ ਇੱਕ ਚੁੱਪ ਅਸਫਲਤਾ (silent failure) ਹੁੰਦੀ ਹੈ। ਇੱਕ ਟੂਲ ਕਾਲ ਕੁਝ ਨਹੀਂ ਕਰਦੀ। ਇੱਕ ਲੁਕੀ ਹੋਈ ਧਾਰਨਾ ਗਲਤ ਹੁੰਦੀ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ ਸਿਰਫ ਅੰਤਿਮ ਜਵਾਬ ਨੂੰ ਸਕੋਰ ਕਰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਸਮੱਸਿਆ ਨੂੰ ਗੁਆ ਦਿੰਦੇ ਹੋ।
ਸਾਨੂੰ ਇਹਨਾਂ ਲਈ ਟੈਸਟ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ:
- ਅੰਸ਼ਕ ਨਿਰੀਖਣ (Partial observability)
- ਲੁਕੀ ਹੋਈ ਸਟੇਟ (Hidden state)
- ਲੌਂਗ-ਹੋਰਾਈਜ਼ਨ ਤਾਲਮੇਲ (Long-horizon coordination)
- ਐਕਸ਼ਨ ਵੈਲਿਡਿਟੀ (Action validity)
- ਗਲਤੀਆਂ ਤੋਂ ਸੁਧਾਰ (Recovery from mistakes)
ਮੁਲਾਂਕਣ ਨੂੰ ਇਸ ਗੱਲ ਦੇ ਨੇੜੇ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਇਹ ਸਿਸਟਮ ਅਸਲ ਦੁਨੀਆ ਵਿੱਚ ਕਿਵੇਂ ਕੰਮ ਕਰਦੇ ਹਨ।
Optional learning community: https://t.me/GyaanSetuAi
