Google DeepMind ਨੇ Multi-Agent AI ਸੁਰੱਖਿਆ ਜੋਖਮਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ $10M ਫੰਡ ਦਾ ਸਮਰਥਨ ਕੀਤਾ
ਜਿਵੇਂ ਕਿ AI ਏਜੰਟ ਸਧਾਰਨ ਚੈਟਬੋਟਾਂ ਤੋਂ ਵਿਕਸਤ ਹੋ ਕੇ ਗੁੰਝਲਦਾਰ ਕੰਮਾਂ ਨੂੰ ਕਰਨ ਦੇ ਯੋਗ ਖੁਦਮੁਖਤਿਆਰ ਇਕਾਈਆਂ ਬਣ ਰਹੇ ਹਨ, ਇੱਕ ਨਵਾਂ ਪ੍ਰਣਾਲੀਗਤ ਜੋਖਮ (systemic risk) ਉਭਰ ਰਿਹਾ ਹੈ। Google DeepMind ਅਤੇ ਕਈ ਵਿਸ਼ਵਵਿਆਪੀ ਭਾਈਵਾਲਾਂ ਨੇ ਉਹਨਾਂ ਅਨਿਸ਼ਚਿਤ ਵਿਵਹਾਰਾਂ ਦਾ ਅਧਿਐਨ ਕਰਨ ਲਈ ਇੱਕ ਵੱਡੀ ਪਹਿਲ ਸ਼ੁਰੂ ਕੀਤੀ ਹੈ ਜੋ ਉਦੋਂ ਪੈਦਾ ਹੁੰਦੇ ਹਨ ਜਦੋਂ ਲੱਖਾਂ ਦੀ ਗਿਣਤੀ ਵਿੱਚ ਇਹ ਖੁਦਮੁਖਤਿਆਰ ਏਜੰਟ ਅਸਲ ਦੁਨੀਆ ਵਿੱਚ ਆਪਸ ਵਿੱਚ ਗੱਲਬਾਤ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰਦੇ ਹਨ।
Multi-Agent ਸਮੱਸਿਆ: ਵਿਅਕਤੀਗਤ ਮਾਡਲ ਸੁਰੱਖਿਆ ਤੋਂ ਪਰੇ
ਮੌਜੂਦਾ AI ਯੁੱਗ ਦੇ ਜ਼ਿਆਦਾਤਰ ਹਿੱਸੇ ਵਿੱਚ, ਖੋਜ ਦਾ ਧਿਆਨ ਸਿੰਗਲ ਮਾਡਲਾਂ ਦੀ ਸੁਰੱਖਿਆ 'ਤੇ ਰਿਹਾ ਹੈ—ਇਹ ਯਕੀਨੀ ਬਣਾਉਣਾ ਕਿ ਕੋਈ ਖਾਸ LLM ਜ਼ਹਿਰੀਲਾ (toxic) ਕੰਟੈਂਟ ਨਾ ਦੇਵੇ ਜਾਂ ਮਾੜੇ ਪ੍ਰੋਂਪਟਸ (malicious prompts) ਦੀ ਪਾਲਣਾ ਨਾ ਕਰੇ। ਹਾਲਾਂਕਿ, Google DeepMind ਅਤੇ ਇਸਦੇ ਭਾਈਵਾਲ ਮੰਨਦੇ ਹਨ ਕਿ ਅਸਲ ਚੁਣੌਤੀ "multi-agent systems" ਵਿੱਚ ਹੈ।
ਜਦੋਂ ਆਰਥਿਕਤਾ ਵਿੱਚ ਵੱਡੀ ਗਿਣਤੀ ਵਿੱਚ ਏਜੰਟ ਤਾਇਨਾਤ ਕੀਤੇ ਜਾਂਦੇ ਹਨ, ਤਾਂ ਉਹ ਇੱਕ ਗੁੰਝਲਦਾਰ ਵਾਤਾਵਰਣ (ecosystem) ਬਣਾਉਂਦੇ ਹਨ ਜਿੱਥੇ ਸਮੂਹਿਕ ਵਿਵਹਾਰ ਇਸਦੇ ਹਿੱਸਿਆਂ ਦੇ ਜੋੜ ਨਾਲੋਂ ਬਿਲਕੁਲ ਵੱਖਰਾ ਹੋ ਸਕਦਾ ਹੈ। ਇਹ "agent hive mind" ਸੰਭਾਵੀ ਤੌਰ 'ਤੇ ਉਭਰਦੀ ਬੁੱਧੀ (emergent intelligence) ਜਾਂ, ਵਧੇਰੇ ਚਿੰਤਾਜਨਕ ਤੌਰ 'ਤੇ, ਉਭਰਦੀ ਹਫੜਾ-ਦਫੜੀ (emergent chaos) ਵੱਲ ਲੈ ਜਾ ਸਕਦਾ ਹੈ। ਮਾਹਰ ਚੇਤਾਵਨੀ ਦਿੰਦੇ ਹਨ ਕਿ ਅਸੀਂ ਇਕੱਲੇ ਮਾਡਲਾਂ ਦਾ ਅਧਿਐਨ ਕਰਕੇ ਇਹਨਾਂ ਨਤੀਜਿਆਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਨਹੀਂ ਕਰ ਸਕਦੇ; ਇਸ ਦੀ ਬਜਾਏ, ਖੋਜਕਰਤਾਵਾਂ ਨੂੰ ਇਹ ਦੇਖਣ ਲਈ ਕਿ ਏਜੰਟ ਡਿਜੀਟਲ ਸੈਂਡਬਾਕਸ ਵਿੱਚ ਕਿਵੇਂ ਆਪਸ ਵਿੱਚ ਗੱਲਬਾਤ ਕਰਦੇ ਹਨ, ਮੁਕਾਬਲਾ ਕਰਦੇ ਹਨ, ਜਾਂ ਅਣਜਾਣੇ ਵਿੱਚ ਸਹਿਯੋਗ ਕਰਦੇ ਹਨ, ਯਥਾਰਥਵਾਦੀ, ਵੱਡੇ ਪੱਧਰ ਦੇ ਸਿਮੂਲੇਸ਼ਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ।
ਅਕਾਦਮਿਕ ਖੋਜ ਲਈ $10 ਮਿਲੀਅਨ ਦਾ ਗਠਜੋੜ
ਇਸ ਘਾਟ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ, Google DeepMind ਨੇ ਖੋਜਕਰਤਾਵਾਂ ਲਈ $10 ਮਿਲੀਅਨ ਦੀ ਫੰਡਿੰਗ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਗਠਜੋੜ ਇਕੱਠਾ ਕੀਤਾ ਹੈ। ਇਸ ਭਾਈਵਾਲੀ ਵਿੱਚ Schmidt Sciences (ਐਰਿਕ ਅਤੇ ਵੈਂਡੀ ਸ਼ਮਿਡ ਦੁਆਰਾ ਚਲਾਇਆ ਜਾਣ ਵਾਲਾ ਇੱਕ ਪਰਉਪਕਾਰੀ ਫਾਊਂਡੇਸ਼ਨ), ARIA (ਯੂਕੇ ਸਰਕਾਰ ਦੀ moonshot agency), Cooperative AI foundation, ਅਤੇ Google.org ਸ਼ਾਮਲ ਹਨ।
ਰਣਨੀਤਕ ਉਦੇਸ਼ ਖੋਜ ਨੂੰ ਵੱਡੀਆਂ ਟੈਕ ਲੈਬਾਂ ਦੀਆਂ ਕੰਧਾਂ ਤੋਂ ਬਾਹਰ ਕੱਢ ਕੇ ਅਕਾਦਮਿਕ ਖੇਤਰ ਵਿੱਚ ਲਿਆਉਣਾ ਹੈ। ਜਦੋਂ ਕਿ Google ਅਤੇ Anthropic ਵਰਗੇ ਉਦਯੋਗਿਕ ਲੀਡਰ ਤਕਨਾਲੋਜੀ ਬਣਾ ਰਹੇ ਹਨ, ਅਕਾਦਮਿਕ ਖੋਜਕਰਤਾਵਾਂ ਕੋਲ ਭਵਿੱਖ ਵਿੱਚ ਹੋਰ ਅੱਗੇ ਦੇਖਣ ਅਤੇ ਲੰਬੇ ਸਮੇਂ ਦੇ ਪ੍ਰਣਾਲੀਗਤ ਜੋਖਮਾਂ ਦੀ ਜਾਂਚ ਕਰਨ ਦੀ ਆਜ਼ਾਦੀ ਹੈ ਜੋ ਸ਼ਾਇਦ ਵਪਾਰਕ ਉਤਪਾਦ ਚੱਕਰਾਂ ਲਈ ਤੁਰੰਤ ਤਰਜੀਹ ਨਾ ਹੋਣ। ਇਸ ਫੰਡਿੰਗ ਦਾ ਉਦੇਸ਼ "multi-agent safety" ਦੇ ਬੁਨਿਆਦੀ ਖੇਤਰ ਨੂੰ ਬਣਾਉਣਾ ਹੈ, ਜੋ ਕਿ ਵਰਤਮਾਨ ਵਿੱਚ ਮੌਜੂਦ ਨਹੀਂ ਹੈ।
ਪ੍ਰੋਂਪਟ ਇੰਜੈਕਸ਼ਨਾਂ ਤੋਂ ਲੈ ਕੇ ਡਿਜੀਟਲ ਅਰਾਜਕਤਾ ਤੱਕ
Multi-agent ਸਿਸਟਮਾਂ ਨਾਲ ਜੁੜੇ ਜੋਖਮ ਸਿਰਫ਼ ਸਿਧਾਂਤਕ ਨਹੀਂ ਹਨ; ਉਹ ਮੌਜੂਦਾ ਸਾਈਬਰ ਸੁਰੱਖਿਆ ਖਤਰਿਆਂ ਦੇ ਵਧੇ ਹੋਏ ਰੂਪ ਹਨ। ਮੁੱਖ ਚਿੰਤਾਵਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:
- ਉੱਨਤ ਪ੍ਰੋਂਪਟ ਇੰਜੈਕਸ਼ਨ (Advanced Prompt Injections): ਇੱਕ ਏਜੰਟ ਨੂੰ ਕਿਸੇ ਦਸਤਾਵੇਜ਼ ਵਿੱਚ ਦੱਬੇ ਹੋਏ ਇੱਕੋ ਇੱਕ ਮਾੜੇ ਵਾਕ ਦੁਆਰਾ "ਹਾਈਜੈਕ" ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਜੋ ਇੱਕ ਮਦਦਗਾਰ ਸਹਾਇਕ ਨੂੰ ਸਵੈ-ਮਾਰਗਦਰਸ਼ਕ ਮਾਲਵੇਅਰ ਵਿੱਚ ਬਦਲ ਸਕਦਾ ਹੈ।
- ਆਟੋਮੇਟਡ ਸਕੈਮ ਅਤੇ ਸਾਈਬਰ ਹਮਲੇ: ਤਰਕ ਕਰਨ ਅਤੇ ਸੁਧਾਰ ਕਰਨ ਦੇ ਯੋਗ ਏਜੰਟ ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਗੁੰਝਲਦਾਰ, ਬਹੁ-ਪੜਾਅ ਵਾਲੇ ਸੋਸ਼ਲ ਇੰਜੀਨੀਅਰਿੰਗ ਜਾਂ ਹੈਕਿੰਗ ਦੇ ਯਤਨ ਕਰ ਸਕਦੇ ਹਨ।
- ਸਿਸਟਮਿਕ ਅਸਥਿਰਤਾ: ਜਿਸ ਤਰ੍ਹਾਂ ਮਨੁੱਖੀ ਸੰਸਥਾਵਾਂ ਅਣਪਛਾਤੇ ਆਰਥਿਕ ਬਦਲਾਅ ਲਿਆ ਸਕਦੀਆਂ ਹਨ, ਉਸੇ ਤਰ੍ਹਾਂ ਆਟੋਨੋਮਸ ਏਜੰਟਾਂ ਦੀ ਵੱਡੀ ਤਾਇਨਾਤੀ ਡਿਜੀਟਲ "ਅਰਾਜਕਤਾ" ਜਾਂ ਮਾਰਕੀਟ ਦੀ ਅਸਥਿਰਤਾ ਦਾ ਕਾਰਨ ਬਣ ਸਕਦੀ ਹੈ।
ਰਵਾਇਤੀ ਸਾਫਟਵੇਅਰ ਦੇ ਉਲਟ, ਜੋ ਮਨੁੱਖਾਂ ਦੁਆਰਾ ਲਿਖੇ ਗਏ ਨਿਰਧਾਰਤ ਮਾਰਗਾਂ ਦੀ ਪਾਲਣਾ ਕਰਦਾ ਹੈ, AI ਏਜੰਟ ਤਰਕ ਕਰਦੇ ਹਨ ਅਤੇ ਸੁਧਾਰ ਕਰਦੇ ਹਨ। ਇਹ ਅਨਿਸ਼ਚਿਤਤਾ "ਜ਼ੀਰੋ ਟਰੱਸਟ" (zero trust) ਫਰੇਮਵਰਕ ਵੱਲ ਇੱਕ ਤਬਦੀਲੀ ਦੀ ਲੋੜ ਪੈਦਾ ਕਰਦੀ ਹੈ—ਇੱਕ ਅਜਿਹੀ ਪਹੁੰਚ ਜਿਸ ਦੀ Anthropic ਦੁਆਰਾ ਵਧਾਈ ਕੀਤੀ ਜਾਂਦੀ ਹੈ—ਜਿੱਥੇ ਹਰ ਏਜੰਟ ਨੂੰ ਇੱਕ ਸੰਭਾਵੀ ਕਮਜ਼ੋਰੀ ਵਜੋਂ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ।
ਮੁੱਖ ਗੱਲਾਂ (Key Takeaways)
- ਨਵੀਂ ਫੰਡਿੰਗ ਪਹਿਲਕਦਮੀ: Google DeepMind ਅਤੇ ਭਾਈਵਾਲਾਂ ਨੇ ਆਪਸੀ ਤਾਲਮੇਲ ਵਾਲੇ AI ਏਜੰਟਾਂ ਦੇ ਅਨਿਸ਼ਚਿਤ ਵਿਵਹਾਰਾਂ ਬਾਰੇ ਅਕਾਦਮਿਕ ਖੋਜ ਲਈ $10 ਮਿਲੀਅਨ ਦੇਣ ਦਾ ਵਾਅਦਾ ਕੀਤਾ ਹੈ।
- ਉਭਰਦੇ ਜੋਖਮ: ਮੁੱਖ ਚਿੰਤਾ ਇਹ ਹੈ ਕਿ ਲੱਖਾਂ ਆਟੋਨੋਮਸ ਏਜੰਟ ਸਿਸਟਮਿਕ ਜੋਖਮ ਪੈਦਾ ਕਰ ਸਕਦੇ ਹਨ, ਜਿਵੇਂ ਕਿ ਆਟੋਮੇਟਡ ਸਾਈਬਰ ਹਮਲੇ ਅਤੇ "ਹਾਈਵ ਮਾਈਂਡ" (hive mind) ਵਿਵਹਾਰ, ਜਿਨ੍ਹਾਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਸਿੰਗਲ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਕਰਕੇ ਨਹੀਂ ਕੀਤੀ ਜਾ ਸਕਦੀ।
- ਸੁਰੱਖਿਆ ਪੈਰਾਡਾਈਮਾਂ ਵਿੱਚ ਤਬਦੀਲੀ: ਜਿਵੇਂ-ਜਿਵੇਂ ਏਜੰਟ ਨਿਰਧਾਰਤ ਸਾਫਟਵੇਅਰ ਤੋਂ ਤਰਕ ਕਰਨ ਵਾਲੀਆਂ ਇਕਾਈਆਂ ਵੱਲ ਵਧ ਰਹੇ ਹਨ, ਉਦਯੋਗ ਹਾਈਜੈਕਿੰਗ ਅਤੇ ਪ੍ਰੋਂਪਟ ਇੰਜੈਕਸ਼ਨ ਦੇ ਜੋਖਮਾਂ ਨੂੰ ਘਟਾਉਣ ਲਈ "ਜ਼ੀਰੋ ਟਰੱਸਟ" ਮਾਡਲਾਂ ਵੱਲ ਵਧ ਰਿਹਾ ਹੈ।