Google ਨੇ Gemini 3.5 Flash ਵਿੱਚ ਕੰਪਿਊਟਰ ਕੰਟਰੋਲ ਨੂੰ ਜੋੜਿਆ ਹੈ
Google ਨੇ Gemini 3.5 Flash ਮਾਡਲ ਵਿੱਚ "Computer Use" ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਸਿੱਧੇ ਤੌਰ 'ਤੇ ਜੋੜ ਕੇ agentic AI ਦੇ ਖੇਤਰ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਮੀਲ ਪੱਥਰ ਪ੍ਰਾਪਤ ਕੀਤਾ ਹੈ। ਇਹ ਅੱਪਡੇਟ ਮਾਡਲ ਨੂੰ ਰੀਅਲ-ਟਾਈਮ ਵਿੱਚ ਕੰਪਿਊਟਰ ਸਕ੍ਰੀਨਾਂ, ਵੈੱਬ ਬ੍ਰਾਊਜ਼ਰਾਂ ਅਤੇ ਮੋਬਾਈਲ ਡਿਵਾਈਸਾਂ ਨੂੰ ਦੇਖਣ, ਸਮਝਣ ਅਤੇ ਉਹਨਾਂ ਨਾਲ ਇੰਟਰੈਕਟ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਇਹ ਟੈਕਸਟ-ਅਧਾਰਤ ਚੈਟ ਤੋਂ ਅੱਗੇ ਵਧ ਕੇ ਸਰਗਰਮ ਡਿਜੀਟਲ ਕਾਰਜਕਾਰੀ (digital execution) ਬਣ ਜਾਂਦਾ ਹੈ।
ਚੈਟਬੋਟ ਤੋਂ ਖੁਦਮੁਖਤਿਆਰ ਏਜੰਟ ਤੱਕ
ਪਹਿਲਾਂ, ਕੰਪਿਊਟਰ ਇੰਟਰਫੇਸ ਨੂੰ ਚਲਾਉਣ ਦੀ ਸਮਰੱਥਾ ਇੱਕ ਵੱਖਰੇ Gemini 2.5 ਮਾਡਲ ਤੱਕ ਸੀਮਤ ਸੀ, ਜਿਸ ਨਾਲ ਸੁਚਾਰੂ ਏਕੀਕਰਨ (integration) ਵਿੱਚ ਰੁਕਾਵਟ ਆਉਂਦੀ ਸੀ। ਇਸ ਫੰਕਸ਼ਨੈਲਿਟੀ ਨੂੰ ਸਿੱਧੇ ਤੌਰ 'ਤੇ Gemini 3.5 Flash ਵਿੱਚ ਸ਼ਾਮਲ ਕਰਕੇ, Google ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਬਹੁਤ ਕੁਸ਼ਲ, ਮਲਟੀਮੋਡਲ ਏਜੰਟ ਬਣਾਉਣ ਦੇ ਯੋਗ ਬਣਾ ਰਿਹਾ ਹੈ। function calling, Google Search, ਅਤੇ Maps ਵਰਗੀਆਂ ਮੌਜੂਦਾ ਸਮਰੱਥਾਵਾਂ ਦੇ ਨਾਲ ਮਿਲ ਕੇ, ਇਹ ਏਜੰਟ ਡੈਸਕਟਾਪ, ਮੋਬਾਈਲ ਅਤੇ ਬ੍ਰਾਊਜ਼ਰ ਵਾਤਾਵਰਣਾਂ ਵਿੱਚ ਗੁੰਝਲਦਾਰ ਵਰਕਫਲੋ ਨੂੰ ਚਲਾ ਸਕਦੇ ਹਨ। ਇਹ ਮਾਡਲ ਨੂੰ ਉੱਚ-ਪੱਧਰੀ ਆਟੋਮੇਸ਼ਨ ਕਾਰਜਾਂ ਲਈ ਇੱਕ ਆਦਰਸ਼ ਇੰਜਣ ਬਣਾਉਂਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਆਟੋਮੇਟਡ ਸੌਫਟਵੇਅਰ ਟੈਸਟਿੰਗ, ਗੁੰਝਲਦਾਰ ਦਫ਼ਤਰੀ ਪ੍ਰਸ਼ਾਸਨ, ਅਤੇ ਕ੍ਰਾਸ-ਪਲੇਟਫਾਰਮ ਡਾਟਾ ਐਂਟਰੀ।
ਪ੍ਰਦਰਸ਼ਨ ਦੀ ਤੁਲਨਾ: Gemini ਬਨਾਮ ਹੋਰ ਮਾਡਲ
ਇਸ ਏਕੀਕਰਨ ਦਾ ਪ੍ਰਭਾਵ OSWorld benchmark ਵਿੱਚ ਸਭ ਤੋਂ ਵੱਧ ਸਪਸ਼ਟ ਹੈ, ਜੋ ਇੱਕ AI ਦੀ ਕੰਪਿਊਟਰ ਸਿਸਟਮ ਨੂੰ ਚਲਾਉਣ ਦੀ ਸਮਰੱਥਾ ਨੂੰ ਮਾਪਦਾ ਹੈ। Gemini 3.5 Flash ਨੇ 78.4 ਦਾ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ ਹੈ, ਜੋ ਕਿ ਕਈ ਉਦਯੋਗਿਕ ਸਾਥੀਆਂ ਦੇ ਮੁਕਾਬਲੇ ਉੱਤਮ ਤਰਕ (reasoning) ਅਤੇ ਕਾਰਜਕਾਰੀ ਸ਼ਕਤੀ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ।
ਸੰਦਰਭ ਲਈ, Gemini 3.5 Flash ਨੇ Gemini 3 Flash (65.1) ਅਤੇ GPT-5.4 mini (72.1) ਨਾਲੋਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਹਾਲਾਂਕਿ ਇਹ ਉਦਯੋਗ ਦੇ ਲੀਡਰ Anthropic Opus 4.8 (83.4) ਅਤੇ GPT-5.5 (78.7) ਦੇ ਬਹੁਤ ਨੇੜੇ ਹੈ, ਫਿਰ ਵੀ ਇਹ ਬਹੁਤ ਮੁਕਾਬਲੇਬਾਜ਼ ਬਣਿਆ ਹੋਇਆ ਹੈ, ਜੋ Sonnet 4.6 (78.4) ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਬਰਾਬਰ ਹੈ ਅਤੇ Gemini 3.1 Pro (76.2) ਨੂੰ ਪਛਾੜਦਾ ਹੈ। ਇਹ ਮੁਕਾਬਲੇਬਾਜ਼ ਸਥਿਤੀ Gemini 3.5 Flash ਨੂੰ ਉਹਨਾਂ ਡਿਵੈਲਪਰਾਂ ਲਈ ਇੱਕ ਉੱਚ-ਦਰਜੇ ਦੀ ਚੋਣ ਵਜੋਂ ਉਜਾਗਰ ਕਰਦੀ ਹੈ ਜੋ ਗਤੀ ਅਤੇ ਉੱਨਤ ਕੰਪਿਊਟਰ ਇੰਟਰੈਕਸ਼ਨ ਵਿਚਕਾਰ ਸੰਤੁਲਨ ਲੱਭ ਰਹੇ ਹਨ।
ਖੁਦਮੁਖਤਿਆਰ ਕੰਟਰੋਲ ਵਿੱਚ ਸੁਰੱਖਿਆ ਅਤੇ ਸੁਰੱਖਿਆ (Safety)
ਇੱਕ LLM ਨੂੰ ਯੂਜ਼ਰ ਦੇ ਇੰਟਰਫੇਸ 'ਤੇ ਕੰਟਰੋਲ ਦੇਣ ਨਾਲ ਮਹੱਤਵਪੂਰਨ ਸੁਰੱਖਿਆ ਜੋਖਮ ਪੈਦਾ ਹੁੰਦੇ ਹਨ, ਖਾਸ ਕਰਕੇ prompt injection ਹਮਲਿਆਂ ਦੇ ਸਬੰਧ ਵਿੱਚ। ਇਹਨਾਂ ਖਤਰਿਆਂ ਨੂੰ ਘਟਾਉਣ ਲਈ, Google ਨੇ ਸਖ਼ਤ adversarial training ਲਾਗੂ ਕੀਤੀ ਹੈ ਅਤੇ ਦੋ ਵੱਖ-ਵੱਖ enterprise-grade ਸੁਰੱਖਿਆ ਉਪਾਅ (safeguards) ਪੇਸ਼ ਕਰਦਾ ਹੈ।
ਪਹਿਲਾ ਸੁਰੱਖਿਆ ਉਪਾਅ ਮਾਡਲ ਦੁਆਰਾ ਸੰਵੇਦਨਸ਼ੀਲ ਜਾਂ ਅਟੱਲ (irreversible) ਕਾਰਜਾਂ, ਜਿਵੇਂ ਕਿ ਫਾਈਲਾਂ ਨੂੰ ਡਿਲੀਟ ਕਰਨਾ ਜਾਂ ਵਿੱਤੀ ਲੈਣ-ਦੇਣ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਯੂਜ਼ਰ ਦੀ ਸਪਸ਼ਟ ਪੁਸ਼ਟੀ ਦੀ ਮੰਗ ਕਰਦਾ ਹੈ। ਦੂਜਾ ਸੁਰੱਖਿਆ ਉਪਾਅ ਕਿਸੇ ਵੀ ਕਾਰਜ ਨੂੰ ਆਪਣੇ ਆਪ ਰੋਕ ਦਿੰਦਾ ਹੈ ਜੇਕਰ ਸਿਸਟਮ ਕਿਸੇ ਅਸਿੱਧੇ (indirect) prompt injection ਦੀ ਕੋਸ਼ਿਸ਼ ਦਾ ਪਤਾ ਲਗਾਉਂਦਾ ਹੈ। ਇਹਨਾਂ ਬਿਲਟ-ਇਨ ਟੂਲਜ਼ ਤੋਂ ਇਲਾਵਾ, Google ਡਿਵੈਲਪਰਾਂ ਨੂੰ "defense-in-depth" ਰਣਨੀਤੀ ਅਪਣਾਉਣ ਦੀ ਸਖ਼ਤ ਸਲਾਹ ਦਿੰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਏਜੰਟ ਦੇ ਵਾਤਾਵਰਣ ਨੂੰ sandboxing ਕਰਨਾ, ਮਨੁੱਖੀ ਨਿਗਰਾਨੀ ਬਣਾਈ ਰੱਖਣਾ, ਅਤੇ ਸਖ਼ਤ ਐਕਸੈਸ ਕੰਟਰੋਲ ਲਾਗੂ ਕਰਨਾ ਸ਼ਾਮਲ ਹੈ।
ਉਪਲਬਧਤਾ ਅਤੇ ਲਾਗੂਕਰਨ
ਇਹਨਾਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਲਾਭ ਉਠਾਉਣ ਦੇ ਚਾਹਵਾਨ ਡਿਵੈਲਪਰ Gemini API ਅਤੇ Gemini Enterprise Agent Platform ਰਾਹੀਂ ਤੁਰੰਤ ਪਹੁੰਚ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹਨ। ਬਿਲਡ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਲਈ, Google ਨੇ ਇੱਕ GitHub reference implementation ਅਤੇ ਇੱਕ Browserbase demo ਪ੍ਰਦਾਨ ਕੀਤਾ ਹੈ, ਜੋ ਮੌਜੂਦਾ ਸਾਫਟਵੇਅਰ ਈਕੋਸਿਸਟਮਾਂ ਵਿੱਚ ਖੁਦਮੁਖਤਿਆਰ ਕੰਪਿਊਟਰ ਕੰਟਰੋਲ ਨੂੰ ਜੋੜਨ ਲਈ ਇੱਕ ਸਪਸ਼ਟ ਰੋਡਮੈਪ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।
ਮੁੱਖ ਗੱਲਾਂ (Key Takeaways)
- ਸਿੱਧਾ ਏਕੀਕਰਨ: ਕੰਪਿਊਟਰ ਕੰਟਰੋਲ ਹੁਣ Gemini 3.5 Flash ਵਿੱਚ ਮੂਲ ਰੂਪ ਵਿੱਚ ਸ਼ਾਮਲ ਹੈ, ਜੋ ਸਕ੍ਰੀਨਾਂ ਅਤੇ ਬ੍ਰਾਊਜ਼ਰਾਂ ਨਾਲ ਸੁਚਾਰੂ ਮਲਟੀਮੋਡਲ ਇੰਟਰੈਕਸ਼ਨ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦਾ ਹੈ।
- ਉੱਚ ਬੈਂਚਮਾਰਕ: 78.4 ਦੇ OSWorld ਸਕੋਰ ਦੇ ਨਾਲ, Gemini 3.5 Flash ਖੁਦਮੁਖਤਿਆਰ ਕੰਪਿਊਟਰ ਕਾਰਜਾਂ ਲਈ ਇੱਕ ਉੱਚ-ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲਾ ਮਾਡਲ ਹੈ, ਜੋ GPT-5.4 mini ਨਾਲੋਂ ਬਿਹਤਰ ਹੈ।
- ਐਂਟਰਪ੍ਰਾਈਜ਼ ਸੁਰੱਖਿਆ: Google adversarial training ਅਤੇ ਸੰਵੇਦਨਸ਼ੀਲ ਕਾਰਜਾਂ ਲਈ ਲਾਜ਼ਮੀ ਯੂਜ਼ਰ ਪੁਸ਼ਟੀ ਵਰਗੇ ਵਿਕਲਪਿਕ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਰਾਹੀਂ ਖੁਦਮੁਖਤਿਆਰ ਏਜੰਟਾਂ ਦੇ ਜੋਖਮਾਂ ਨੂੰ ਹੱਲ ਕਰਦਾ ਹੈ।
