Google Integrates Computer Control into Gemini 3.5 Flash

Translated for your language. Read the original.

AI-assisted draft.

Google Integrates Computer Control into Gemini 3.5 Flash

In this article

Google ਨੇ Gemini 3.5 Flash ਵਿੱਚ ਕੰਪਿਊਟਰ ਕੰਟਰੋਲ ਨੂੰ ਜੋੜਿਆ ਹੈ

Google ਨੇ Gemini 3.5 Flash ਮਾਡਲ ਵਿੱਚ "Computer Use" ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਸਿੱਧੇ ਤੌਰ 'ਤੇ ਜੋੜ ਕੇ agentic AI ਦੇ ਖੇਤਰ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਮੀਲ ਪੱਥਰ ਪ੍ਰਾਪਤ ਕੀਤਾ ਹੈ। ਇਹ ਅੱਪਡੇਟ ਮਾਡਲ ਨੂੰ ਰੀਅਲ-ਟਾਈਮ ਵਿੱਚ ਕੰਪਿਊਟਰ ਸਕ੍ਰੀਨਾਂ, ਵੈੱਬ ਬ੍ਰਾਊਜ਼ਰਾਂ ਅਤੇ ਮੋਬਾਈਲ ਡਿਵਾਈਸਾਂ ਨੂੰ ਦੇਖਣ, ਸਮਝਣ ਅਤੇ ਉਹਨਾਂ ਨਾਲ ਇੰਟਰੈਕਟ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਇਹ ਟੈਕਸਟ-ਅਧਾਰਤ ਚੈਟ ਤੋਂ ਅੱਗੇ ਵਧ ਕੇ ਸਰਗਰਮ ਡਿਜੀਟਲ ਕਾਰਜਕਾਰੀ (digital execution) ਬਣ ਜਾਂਦਾ ਹੈ।

ਚੈਟਬੋਟ ਤੋਂ ਖੁਦਮੁਖਤਿਆਰ ਏਜੰਟ ਤੱਕ

ਪਹਿਲਾਂ, ਕੰਪਿਊਟਰ ਇੰਟਰਫੇਸ ਨੂੰ ਚਲਾਉਣ ਦੀ ਸਮਰੱਥਾ ਇੱਕ ਵੱਖਰੇ Gemini 2.5 ਮਾਡਲ ਤੱਕ ਸੀਮਤ ਸੀ, ਜਿਸ ਨਾਲ ਸੁਚਾਰੂ ਏਕੀਕਰਨ (integration) ਵਿੱਚ ਰੁਕਾਵਟ ਆਉਂਦੀ ਸੀ। ਇਸ ਫੰਕਸ਼ਨੈਲਿਟੀ ਨੂੰ ਸਿੱਧੇ ਤੌਰ 'ਤੇ Gemini 3.5 Flash ਵਿੱਚ ਸ਼ਾਮਲ ਕਰਕੇ, Google ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਬਹੁਤ ਕੁਸ਼ਲ, ਮਲਟੀਮੋਡਲ ਏਜੰਟ ਬਣਾਉਣ ਦੇ ਯੋਗ ਬਣਾ ਰਿਹਾ ਹੈ। function calling, Google Search, ਅਤੇ Maps ਵਰਗੀਆਂ ਮੌਜੂਦਾ ਸਮਰੱਥਾਵਾਂ ਦੇ ਨਾਲ ਮਿਲ ਕੇ, ਇਹ ਏਜੰਟ ਡੈਸਕਟਾਪ, ਮੋਬਾਈਲ ਅਤੇ ਬ੍ਰਾਊਜ਼ਰ ਵਾਤਾਵਰਣਾਂ ਵਿੱਚ ਗੁੰਝਲਦਾਰ ਵਰਕਫਲੋ ਨੂੰ ਚਲਾ ਸਕਦੇ ਹਨ। ਇਹ ਮਾਡਲ ਨੂੰ ਉੱਚ-ਪੱਧਰੀ ਆਟੋਮੇਸ਼ਨ ਕਾਰਜਾਂ ਲਈ ਇੱਕ ਆਦਰਸ਼ ਇੰਜਣ ਬਣਾਉਂਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਆਟੋਮੇਟਡ ਸੌਫਟਵੇਅਰ ਟੈਸਟਿੰਗ, ਗੁੰਝਲਦਾਰ ਦਫ਼ਤਰੀ ਪ੍ਰਸ਼ਾਸਨ, ਅਤੇ ਕ੍ਰਾਸ-ਪਲੇਟਫਾਰਮ ਡਾਟਾ ਐਂਟਰੀ।

ਪ੍ਰਦਰਸ਼ਨ ਦੀ ਤੁਲਨਾ: Gemini ਬਨਾਮ ਹੋਰ ਮਾਡਲ

ਇਸ ਏਕੀਕਰਨ ਦਾ ਪ੍ਰਭਾਵ OSWorld benchmark ਵਿੱਚ ਸਭ ਤੋਂ ਵੱਧ ਸਪਸ਼ਟ ਹੈ, ਜੋ ਇੱਕ AI ਦੀ ਕੰਪਿਊਟਰ ਸਿਸਟਮ ਨੂੰ ਚਲਾਉਣ ਦੀ ਸਮਰੱਥਾ ਨੂੰ ਮਾਪਦਾ ਹੈ। Gemini 3.5 Flash ਨੇ 78.4 ਦਾ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ ਹੈ, ਜੋ ਕਿ ਕਈ ਉਦਯੋਗਿਕ ਸਾਥੀਆਂ ਦੇ ਮੁਕਾਬਲੇ ਉੱਤਮ ਤਰਕ (reasoning) ਅਤੇ ਕਾਰਜਕਾਰੀ ਸ਼ਕਤੀ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ।

ਸੰਦਰਭ ਲਈ, Gemini 3.5 Flash ਨੇ Gemini 3 Flash (65.1) ਅਤੇ GPT-5.4 mini (72.1) ਨਾਲੋਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਹਾਲਾਂਕਿ ਇਹ ਉਦਯੋਗ ਦੇ ਲੀਡਰ Anthropic Opus 4.8 (83.4) ਅਤੇ GPT-5.5 (78.7) ਦੇ ਬਹੁਤ ਨੇੜੇ ਹੈ, ਫਿਰ ਵੀ ਇਹ ਬਹੁਤ ਮੁਕਾਬਲੇਬਾਜ਼ ਬਣਿਆ ਹੋਇਆ ਹੈ, ਜੋ Sonnet 4.6 (78.4) ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਬਰਾਬਰ ਹੈ ਅਤੇ Gemini 3.1 Pro (76.2) ਨੂੰ ਪਛਾੜਦਾ ਹੈ। ਇਹ ਮੁਕਾਬਲੇਬਾਜ਼ ਸਥਿਤੀ Gemini 3.5 Flash ਨੂੰ ਉਹਨਾਂ ਡਿਵੈਲਪਰਾਂ ਲਈ ਇੱਕ ਉੱਚ-ਦਰਜੇ ਦੀ ਚੋਣ ਵਜੋਂ ਉਜਾਗਰ ਕਰਦੀ ਹੈ ਜੋ ਗਤੀ ਅਤੇ ਉੱਨਤ ਕੰਪਿਊਟਰ ਇੰਟਰੈਕਸ਼ਨ ਵਿਚਕਾਰ ਸੰਤੁਲਨ ਲੱਭ ਰਹੇ ਹਨ।

ਖੁਦਮੁਖਤਿਆਰ ਕੰਟਰੋਲ ਵਿੱਚ ਸੁਰੱਖਿਆ ਅਤੇ ਸੁਰੱਖਿਆ (Safety)

ਇੱਕ LLM ਨੂੰ ਯੂਜ਼ਰ ਦੇ ਇੰਟਰਫੇਸ 'ਤੇ ਕੰਟਰੋਲ ਦੇਣ ਨਾਲ ਮਹੱਤਵਪੂਰਨ ਸੁਰੱਖਿਆ ਜੋਖਮ ਪੈਦਾ ਹੁੰਦੇ ਹਨ, ਖਾਸ ਕਰਕੇ prompt injection ਹਮਲਿਆਂ ਦੇ ਸਬੰਧ ਵਿੱਚ। ਇਹਨਾਂ ਖਤਰਿਆਂ ਨੂੰ ਘਟਾਉਣ ਲਈ, Google ਨੇ ਸਖ਼ਤ adversarial training ਲਾਗੂ ਕੀਤੀ ਹੈ ਅਤੇ ਦੋ ਵੱਖ-ਵੱਖ enterprise-grade ਸੁਰੱਖਿਆ ਉਪਾਅ (safeguards) ਪੇਸ਼ ਕਰਦਾ ਹੈ।

ਪਹਿਲਾ ਸੁਰੱਖਿਆ ਉਪਾਅ ਮਾਡਲ ਦੁਆਰਾ ਸੰਵੇਦਨਸ਼ੀਲ ਜਾਂ ਅਟੱਲ (irreversible) ਕਾਰਜਾਂ, ਜਿਵੇਂ ਕਿ ਫਾਈਲਾਂ ਨੂੰ ਡਿਲੀਟ ਕਰਨਾ ਜਾਂ ਵਿੱਤੀ ਲੈਣ-ਦੇਣ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਯੂਜ਼ਰ ਦੀ ਸਪਸ਼ਟ ਪੁਸ਼ਟੀ ਦੀ ਮੰਗ ਕਰਦਾ ਹੈ। ਦੂਜਾ ਸੁਰੱਖਿਆ ਉਪਾਅ ਕਿਸੇ ਵੀ ਕਾਰਜ ਨੂੰ ਆਪਣੇ ਆਪ ਰੋਕ ਦਿੰਦਾ ਹੈ ਜੇਕਰ ਸਿਸਟਮ ਕਿਸੇ ਅਸਿੱਧੇ (indirect) prompt injection ਦੀ ਕੋਸ਼ਿਸ਼ ਦਾ ਪਤਾ ਲਗਾਉਂਦਾ ਹੈ। ਇਹਨਾਂ ਬਿਲਟ-ਇਨ ਟੂਲਜ਼ ਤੋਂ ਇਲਾਵਾ, Google ਡਿਵੈਲਪਰਾਂ ਨੂੰ "defense-in-depth" ਰਣਨੀਤੀ ਅਪਣਾਉਣ ਦੀ ਸਖ਼ਤ ਸਲਾਹ ਦਿੰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਏਜੰਟ ਦੇ ਵਾਤਾਵਰਣ ਨੂੰ sandboxing ਕਰਨਾ, ਮਨੁੱਖੀ ਨਿਗਰਾਨੀ ਬਣਾਈ ਰੱਖਣਾ, ਅਤੇ ਸਖ਼ਤ ਐਕਸੈਸ ਕੰਟਰੋਲ ਲਾਗੂ ਕਰਨਾ ਸ਼ਾਮਲ ਹੈ।

ਉਪਲਬਧਤਾ ਅਤੇ ਲਾਗੂਕਰਨ

ਇਹਨਾਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਲਾਭ ਉਠਾਉਣ ਦੇ ਚਾਹਵਾਨ ਡਿਵੈਲਪਰ Gemini API ਅਤੇ Gemini Enterprise Agent Platform ਰਾਹੀਂ ਤੁਰੰਤ ਪਹੁੰਚ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹਨ। ਬਿਲਡ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਲਈ, Google ਨੇ ਇੱਕ GitHub reference implementation ਅਤੇ ਇੱਕ Browserbase demo ਪ੍ਰਦਾਨ ਕੀਤਾ ਹੈ, ਜੋ ਮੌਜੂਦਾ ਸਾਫਟਵੇਅਰ ਈਕੋਸਿਸਟਮਾਂ ਵਿੱਚ ਖੁਦਮੁਖਤਿਆਰ ਕੰਪਿਊਟਰ ਕੰਟਰੋਲ ਨੂੰ ਜੋੜਨ ਲਈ ਇੱਕ ਸਪਸ਼ਟ ਰੋਡਮੈਪ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।

ਮੁੱਖ ਗੱਲਾਂ (Key Takeaways)

ਸਿੱਧਾ ਏਕੀਕਰਨ: ਕੰਪਿਊਟਰ ਕੰਟਰੋਲ ਹੁਣ Gemini 3.5 Flash ਵਿੱਚ ਮੂਲ ਰੂਪ ਵਿੱਚ ਸ਼ਾਮਲ ਹੈ, ਜੋ ਸਕ੍ਰੀਨਾਂ ਅਤੇ ਬ੍ਰਾਊਜ਼ਰਾਂ ਨਾਲ ਸੁਚਾਰੂ ਮਲਟੀਮੋਡਲ ਇੰਟਰੈਕਸ਼ਨ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦਾ ਹੈ।
ਉੱਚ ਬੈਂਚਮਾਰਕ: 78.4 ਦੇ OSWorld ਸਕੋਰ ਦੇ ਨਾਲ, Gemini 3.5 Flash ਖੁਦਮੁਖਤਿਆਰ ਕੰਪਿਊਟਰ ਕਾਰਜਾਂ ਲਈ ਇੱਕ ਉੱਚ-ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲਾ ਮਾਡਲ ਹੈ, ਜੋ GPT-5.4 mini ਨਾਲੋਂ ਬਿਹਤਰ ਹੈ।
ਐਂਟਰਪ੍ਰਾਈਜ਼ ਸੁਰੱਖਿਆ: Google adversarial training ਅਤੇ ਸੰਵੇਦਨਸ਼ੀਲ ਕਾਰਜਾਂ ਲਈ ਲਾਜ਼ਮੀ ਯੂਜ਼ਰ ਪੁਸ਼ਟੀ ਵਰਗੇ ਵਿਕਲਪਿਕ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਰਾਹੀਂ ਖੁਦਮੁਖਤਿਆਰ ਏਜੰਟਾਂ ਦੇ ਜੋਖਮਾਂ ਨੂੰ ਹੱਲ ਕਰਦਾ ਹੈ।

Google Integrates Computer Control into Gemini 3.5 Flash

Google ਨੇ Gemini 3.5 Flash ਵਿੱਚ ਕੰਪਿਊਟਰ ਕੰਟਰੋਲ ਨੂੰ ਜੋੜਿਆ ਹੈ

ਚੈਟਬੋਟ ਤੋਂ ਖੁਦਮੁਖਤਿਆਰ ਏਜੰਟ ਤੱਕ

ਪ੍ਰਦਰਸ਼ਨ ਦੀ ਤੁਲਨਾ: Gemini ਬਨਾਮ ਹੋਰ ਮਾਡਲ

ਖੁਦਮੁਖਤਿਆਰ ਕੰਟਰੋਲ ਵਿੱਚ ਸੁਰੱਖਿਆ ਅਤੇ ਸੁਰੱਖਿਆ (Safety)

ਉਪਲਬਧਤਾ ਅਤੇ ਲਾਗੂਕਰਨ

ਮੁੱਖ ਗੱਲਾਂ (Key Takeaways)

Continue reading

ਗੂਗਲ ਡੀਪਮਾਈਂਡ ਦਾ ਨਵਾਂ AI ਕੰਟਰੋਲ ਰੋਡਮੈਪ: ਏਜੰਟਾਂ ਨੂੰ ਅੰਦਰੂਨੀ ਖ਼ਤਰਿਆਂ ਵਜੋਂ ਦੇਖਣਾ

Google Shifts Gemini to Interactions API to Power the New Era of Agents

Google Makes Interactions API The Default Way to Build with Gemini Agents

Gemini Interactions API: The Ultimate Migration Guide

Gemini 3.5 Flash ਵਿੱਚ ਹੁਣ ਨੇਟਿਵ ਕੰਪਿਊਟਰ ਯੂਜ਼ ਦੀ ਸਮਰੱਥਾ ਹੈ