ਚੈਟਬੋਟਸ ਤੋਂ ਪਰੇ: AI ਨੂੰ ਜਵਾਬ ਦੇਣ ਤੋਂ ਉੱਤੇ ਕੰਮ ਕਰਨ (Executing) ਵੱਲ ਕਿਉਂ ਵਧਣਾ ਚਾਹੀਦਾ ਹੈ
ਰਿਐਕਟਿਵ (reactive) AI ਦਾ ਯੁੱਗ ਖਤਮ ਹੋ ਰਿਹਾ ਹੈ। ਅਸੀਂ ਉਹਨਾਂ Large Language Models (LLMs) ਤੋਂ ਅੱਗੇ ਵਧ ਰਹੇ ਹਾਂ ਜੋ ਸਿਰਫ਼ ਸੰਭਾਵਨਾਜਨਕ ਟੈਕਸਟ ਤਿਆਰ ਕਰਦੇ ਹਨ, ਅਤੇ ਹੁਣ ਅਸੀਂ ਅਜਿਹੇ ਖੁਦਮੁਖਤਿਆਰ ਏਜੰਟਾਂ (autonomous agents) ਵੱਲ ਵਧ ਰਹੇ ਹਾਂ ਜੋ ਸਥਿਰ ਡਿਜੀਟਲ ਵਾਤਾਵਰਣਾਂ ਵਿੱਚ ਗੁੰਝਲਦਾਰ, ਬਹੁ-ਪੜਾਅ ਵਾਲੇ ਵਰਕਫਲੋ ਨੂੰ ਚਲਾਉਣ ਦੇ ਸਮਰੱਥ ਹਨ।
ਤੇਜ਼ ਅੰਤਰਬੋਧ (Intuition) ਤੋਂ ਹੌਲੀ ਤਰਕ (Reasoning) ਤੱਕ
AI ਦਾ ਮੌਜੂਦਾ ਵਿਕਾਸ ਕੰਪਿਊਟੇਸ਼ਨਲ ਲੌਜਿਕ ਵਿੱਚ ਇੱਕ ਬੁਨਿਆਦੀ ਤਬਦੀਲੀ ਦੁਆਰਾ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤਾ ਗਿਆ ਹੈ। ਰਵਾਇਤੀ ਚੈਟਬੋਟ "System 1" ਸੋਚ 'ਤੇ ਕੰਮ ਕਰਦੇ ਸਨ—ਜੋ ਕਿ ਅੰਕੜਾਤਮਕ ਸੰਭਾਵਨਾ ਦੇ ਅਧਾਰ 'ਤੇ ਤੇਜ਼, ਅੰਤਰਬੋਧਸ਼ੀਲ ਅਤੇ ਟੋਕਨ-ਦਰ-ਟੋਕਨ ਜਨਰੇਸ਼ਨ ਸੀ। ਇਹ ਮਾਡਲਾਂ ਤੁਰੰਤ ਜਵਾਬ ਤਾਂ ਦਿੰਦੇ ਸਨ ਪਰ ਉਹਨਾਂ ਵਿੱਚ ਆਪਣੇ ਲੌਜਿਕ ਦੀ ਜਾਂਚ ਕਰਨ ਜਾਂ ਵਿਚਕਾਰ ਗਲਤੀਆਂ ਨੂੰ ਸੁਧਾਰਨ ਦੀ ਸਮਰੱਥਾ ਦੀ ਕਮੀ ਸੀ।
OpenAI ਦੇ o1 ਅਤੇ DeepSeek-R1 ਵਰਗੇ ਮਾਡਲਾਂ ਦੀ ਅਗਵਾਈ ਵਾਲੇ "thinking LLMs" ਦੇ ਉਭਾਰ ਨੇ "System 2" ਤਰਕ (reasoning) ਨੂੰ ਪੇਸ਼ ਕੀਤਾ ਹੈ। ਇਨਫਰੈਂਸ (inference) ਸਮੇਂ ਵਧੇਰੇ ਕੰਪਿਊਟਿੰਗ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਇਹ ਮਾਡਲ ਵਿਚਾਰਾਂ ਦੀਆਂ ਲੰਬੀਆਂ ਲੜੀਆਂ (chains of thought) ਤਿਆਰ ਕਰਨ ਲਈ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਉਹ ਹੱਲ ਦੇ ਰਸਤਿਆਂ ਦੀ ਜਾਂਚ ਕਰਦੇ ਹਨ, ਵਿਚਕਾਰਲੇ ਕਦਮਾਂ ਦੀ ਪੁਸ਼ਟੀ ਕਰਦੇ ਹਨ, ਅਤੇ ਖੁਦ ਨੂੰ ਸੁਧਾਰਦੇ ਹਨ, ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦੇ ਹਨ ਕਿ ਸਿਰਫ਼ ਪ੍ਰਮਾਣਿਤ ਸਹੀ ਹੱਲ ਹੀ ਪੇਸ਼ ਕੀਤੇ ਜਾਣ। ਇਹ ਤਬਦੀਲੀ ਇੱਕ ਮਾਡਲ ਨੂੰ ਸਰਚ ਇੰਜਣ ਦੇ ਬਦਲ ਤੋਂ ਇੱਕ ਰੀਜ਼ਨਿੰਗ ਇੰਜਣ ਵਿੱਚ ਬਦਲਣ ਵੱਲ ਪਹਿਲਾ ਕਦਮ ਹੈ।
OpenClaw ਯੁੱਗ: ਵਰਕਸਪੇਸ ਅਤੇ ਸਕਿੱਲ (Skill) ਇੱਕੀਕਰਨ
ਹਾਲਾਂਕਿ ਤਰਕ (reasoning) ਮਹੱਤਵਪੂਰਨ ਹੈ, ਪਰ ਸਿਰਫ਼ ਤਰਕ ਨਾਲ ਕੰਮ ਪੂਰਾ ਨਹੀਂ ਹੁੰਦਾ। ਖੋਜਕਰਤਾਵਾਂ ਦਾ ਕਹਿਣਾ ਹੈ ਕਿ ਅਗਲੀ ਵੱਡੀ ਛਾਲ—"OpenClaw" ਯੁੱਗ—ਨੂੰ ਕਮਜ਼ੋਰ, ਇੱਕ ਵਾਰੀ ਵਾਲੇ ਟੂਲ ਕਾਲਜ਼ (one-off tool calls) ਤੋਂ ਸਥਿਰ ਅਤੇ ਸੁਰੱਖਿਅਤ ਵਰਕਸਪੇਸਾਂ ਵੱਲ ਤਬਦੀਲੀ ਦੀ ਲੋੜ ਹੈ।
ਇਸ ਵਿੱਚ ਵੱਡੀ ਸਫਲਤਾ Workspace ਅਤੇ Skill ਦੇ ਸੁਮੇਲ ਵਿੱਚ ਹੈ:
- The Workspace: ਇੱਕ ਸਥਿਰ ਵਾਤਾਵਰਣ ਜਿਸ ਵਿੱਚ ਫਾਈਲਾਂ, ਟਰਮੀਨਲ, ਲੌਗਸ ਅਤੇ ਬ੍ਰਾਊਜ਼ਰ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ। ਸ਼ੁਰੂਆਤੀ ਏਜੰਟਾਂ ਦੇ ਉਲਟ ਜੋ ਕਦਮਾਂ ਦੇ ਵਿਚਕਾਰ ਸੰਦਰਭ (context) ਗੁਆ ਦਿੰਦੇ ਸਨ, ਇੱਕ ਵਰਕਸਪੇਸ "ਸਟੇਟ" (state) ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ, ਜਿਸਦਾ ਮਤਲਬ ਹੈ ਕਿ AI ਇੱਕ ਸਥਿਰ ਵਾਤਾਵਰਣ ਨਾਲ ਗੱਲਬਾਤ ਕਰ ਸਕਦਾ ਹੈ ਜਿੱਥੇ ਕਾਰਵਾਈਆਂ ਦੇ ਸਥਾਈ ਨਤੀਜੇ ਹੁੰਦੇ ਹਨ।
- Skills: ਸਧਾਰਨ ਪ੍ਰੋਂਪਟਾਂ ਤੋਂ ਅੱਗੇ ਵਧਦੇ ਹੋਏ, "skills" ਕਾਰਜਸ਼ੀਲ ਗਿਆਨ ਦੇ ਮੋਡਿਊਲਰ ਅਤੇ ਮੁੜ ਵਰਤੋਂ ਯੋਗ ਬੰਡਲ ਹਨ। ਉਦਾਹਰਣ ਵਜੋਂ, Anthropic ਦੇ Agent Skills, ਹਦਾਇਤਾਂ ਅਤੇ ਸਕ੍ਰਿਪਟਾਂ ਨੂੰ ਪੈਕੇਜ ਕਰਨ ਲਈ
SKILL.mdਫਾਈਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਇਹ ਸੰਸਥਾਵਾਂ ਨੂੰ ਹਰ ਪ੍ਰੋਂਪਟ ਦੇ ਨਾਲ ਵਰਕਫਲੋ ਨੂੰ ਦੁਬਾਰਾ ਬਣਾਉਣ ਦੀ ਬਜਾਏ, ਸੰਸਥਾਗਤ ਜਾਣਕਾਰੀ ਨੂੰ ਇੱਕ ਪੋਰਟੇਬਲ ਫਾਰਮੈਟ ਵਿੱਚ ਸਾਂਭਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ।
ਸਫਲਤਾ ਦੀ ਮੁੜ ਪਰਿਭਾਸ਼ਾ: ਟਾਸਕ ਕਲੋਜ਼ਰ (Task Closure) ਬਨਾਮ ਜਵਾਬ ਦੀ ਸ਼ੁੱਧਤਾ
ਜਿਵੇਂ-ਜਿਵੇਂ AI ਵਰਕਸਪੇਸਾਂ ਵਿੱਚ ਦਾਖਲ ਹੋ ਰਿਹਾ ਹੈ, "ਬੁੱਧੀਮਾਨਤਾ" (intelligence) ਦੇ ਮਾਪਦੰਡ ਬਦਲਣੇ ਚਾਹੀਦੇ ਹਨ। ਚੈਟਬੋਟ ਯੁੱਗ ਵਿੱਚ, ਮਾਡਲਾਂ ਨੂੰ ਉਹਨਾਂ ਦੇ ਜਵਾਬਾਂ ਦੀ ਸ਼ੁੱਧਤਾ ਦੇ ਅਧਾਰ 'ਤੇ ਗ੍ਰੇਡ ਕੀਤਾ ਜਾਂਦਾ ਸੀ। ਏਜੈਂਟਿਕ ਯੁੱਗ ਵਿੱਚ, ਸਫਲਤਾ ਨੂੰ task closure ਦੁਆਰਾ ਮਾਪਿਆ ਜਾਂਦਾ ਹੈ: ਇੱਕ ਨਿਸ਼ਾਨਾ ਵਾਤਾਵਰਣ ਨੂੰ ਪ੍ਰਮਾਣਿਤ ਅੰਤਿਮ ਸਥਿਤੀ (end state) ਤੱਕ ਲਿਆਉਣ ਦੀ ਸਮਰੱਥਾ।
ਇਹ ਤਬਦੀਲੀ ਆਧੁਨਿਕ ਬੈਂਚਮਾਰਕਸ ਦੀ ਗੁੰਝਲਦਾਰਤਾ ਦੁਆਰਾ ਸਾਬਤ ਹੁੰਦੀ ਹੈ। ਹਾਲਾਂਕਿ GPT-4 ਟੈਕਸਟ ਵਿੱਚ ਉੱਤਮ ਹੈ, ਪਰ ਇਸਨੇ ਸ਼ੁਰੂ ਵਿੱਚ WebArena ਬੈਂਚਮਾਰਕ ਵਿੱਚ ਸਿਰਫ਼ 14% ਕਾਰਜ ਪੂਰੇ ਕੀਤੇ ਸਨ, ਜੋ ਕਿ ਅਸਲ ਦੁਨੀਆ ਦੇ ਵੈੱਬ ਵਾਤਾਵਰਣਾਂ ਦੀ ਨਕਲ ਕਰਦਾ ਹੈ। ਹੁਣ ਸਫਲਤਾ ਲਈ ਸਿਰਫ਼ ਇਸਦੇ ਅੰਤਿਮ ਆਉਟਪੁੱਟ ਨੂੰ ਪੜ੍ਹਨ ਦੀ ਬਜਾਏ "state-action-observation trajectories"—ਇੱਕ ਏਜੰਟ ਸਿਸਟਮ ਵਿੱਚ ਕਿਵੇਂ ਚਲਦਾ ਹੈ, ਇਸ ਨੂੰ ਦੇਖਣ ਦੀ ਲੋੜ ਹੈ।
ਸੁਰੱਖਿਆ ਅਤੇ ਸ਼ਾਸਨ (Governance) ਦੀ ਨਵੀਂ ਸਰਹੱਦ
ਵਧਦੀ ਖੁਦਮੁਖਤਿਆਰੀ ਵਧੇਰੇ ਜੋਖਮ ਲਿਆਉਂਦੀ ਹੈ। ਕਿਉਂਕਿ ਵਰਕਸਪੇਸ-ਅਧਾਰਤ ਏਜੰਟ ਕ੍ਰੈਡੈਂਸ਼ੀਅਲਜ਼, ਆਈਡੈਂਟੀਟੀ ਟੋਕਨਜ਼ ਅਤੇ ਸੰਵੇਦਨਸ਼ੀਲ ਰਿਪੋਜ਼ਟਰੀਆਂ ਤੱਕ ਪਹੁੰਚ ਰੱਖਦੇ ਹਨ, ਉਹ AI ਦੇ ਹਮਲੇ ਦੀ ਸਤ੍ਹਾ (attack surface) ਨੂੰ ਵਧਾਉਂਦੇ ਹਨ। OpenClaw PRISM ਅਤੇ ClawGuard ਵਰਗੇ ਉਭਰ ਰਹੇ ਫਰੇਮਵਰਕ ਅਜਿਹੇ "harnesses" ਬਣਾਉਣ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰ ਰਹੇ ਹਨ ਜਿਸ ਵਿੱਚ ਪਰਮਿਸ਼ਨ ਕੰਟਰੋਲ, ਪ੍ਰੋਵੇਨੈਂਸ ਟ੍ਰੈਕਿੰਗ (provenance tracking) ਅਤੇ ਸੈਂਡਬਾਕਸਿੰਗ ਸ਼ਾਮਲ ਹਨ। AI ਨੂੰ ਇੱਕ ਅਸਲੀ ਸਹਿਕਰਮੀ ਬਣਾਉਣ ਲਈ, ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਰੋਲਬੈਕ, ਡੇਟਾ ਪ੍ਰਭੂਸੱਤਾ (data sovereignty) ਅਤੇ ਵਰਕਸਪੇਸ ਹਾਈਜੀਨ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ ਤਾਂ ਜੋ ਇਹ ਯਕੀਨੀ ਬਣਾਇਆ ਜਾ ਸਕੇ ਕਿ ਏਜੰਟ ਦੀ ਗਲਤੀ ਇੱਕ ਸਥਾਈ ਆਰਕੀਟੈਕਚਰਲ ਖਾਮੀ (flaw) ਨਾ ਬਣ ਜਾਵੇ।
ਮੁੱਖ ਗੱਲਾਂ (Key Takeaways)
- Reasoning Shift: AI "System 1" (ਤੇਜ਼, ਰਿਐਕਟਿਵ) ਤੋਂ "System 2" (ਹੌਲੀ, ਸੋਚ-ਸਮਝ ਕੇ) ਤਰਕ ਵੱਲ ਵਧ ਰਿਹਾ ਹੈ, ਜੋ ਖੁਦ ਨੂੰ ਸੁਧਾਰਨ ਲਈ ਇਨਫਰੈਂਸ ਸਮੇਂ ਵਾਧੂ ਕੰਪਿਊਟਿੰਗ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ।
- Workspace + Skill: ਅਸਲ ਖੁਦਮੁਖਤਿਆਰੀ ਲਈ ਇੱਕ ਸਥਿਰ ਡਿਜੀਟਲ ਵਰਕਸਪੇਸ ਅਤੇ ਮੋਡਿਊਲਰ, ਮੁੜ ਵਰਤੋਂ ਯੋਗ "skills" ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ਤਾਂ ਜੋ ਇਹ ਯਕੀਨੀ ਬਣਾਇਆ ਜਾ ਸਕੇ ਕਿ ਵਰਕਫਲੋ ਨੂੰ ਦੁਬਾਰਾ ਦੁਹਰਾਇਆ ਜਾ ਸਕਦਾ ਹੈ ਅਤੇ ਵਧਾਇਆ ਜਾ ਸਕਦਾ ਹੈ।
- New Evaluation Metrics: ਸਫਲਤਾ ਹੁਣ ਟੈਕਸਟ ਜਵਾਬ ਦੀ ਸੰਭਾਵਨਾ ਬਾਰੇ ਨਹੀਂ ਹੈ, ਸਗੋਂ "task closure" ਬਾਰੇ ਹੈ—ਇੱਕ ਗੁੰਝਲਦਾਰ ਵਾਤਾਵਰਣ ਦੇ ਅੰਦਰ ਵਰਕਫਲੋ ਨੂੰ ਪ੍ਰਮ
