Google Integrates Computer Control into Gemini 3.5 Flash

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialಕಳೆದ ವಾರ3min read

Google Integrates Computer Control into Gemini 3.5 Flash

In this article

Google ತನ್ನ Gemini 3.5 Flash ನಲ್ಲಿ ಕಂಪ್ಯೂಟರ್ ನಿಯಂತ್ರಣವನ್ನು (Computer Control) ಸಂಯೋಜಿಸಿದೆ

Google ತನ್ನ Gemini 3.5 Flash ಮಾಡೆಲ್‌ಗೆ ನೇರವಾಗಿ "Computer Use" ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಸಂಯೋಜಿಸುವ ಮೂಲಕ ಏಜೆಂಟಿಕ್ AI (agentic AI) ಕ್ಷೇತ್ರದಲ್ಲಿ ಒಂದು ಪ್ರಮುಖ ಮೈಲಿಗಲ್ಲನ್ನು ತಲುಪಿದೆ. ಈ ಅಪ್‌ಡೇಟ್ ಮಾಡೆಲ್ ಕಂಪ್ಯೂಟರ್ ಪರದೆಗಳು, ವೆಬ್ ಬ್ರೌಸರ್‌ಗಳು ಮತ್ತು ಮೊಬೈಲ್ ಸಾಧನಗಳನ್ನು ನೈಜ ಸಮಯದಲ್ಲಿ (real-time) ಗ್ರಹಿಸಲು, ಅರ್ಥೈಸಿಕೊಳ್ಳಲು ಮತ್ತು ಅವುಗಳೊಂದಿಗೆ ಸಂವಹನ ನಡೆಸಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ, ಇದು ಕೇವಲ ಪಠ್ಯ ಆಧಾರಿತ ಚಾಟ್‌ಗಿಂತ ಮೀರಿ ಸಕ್ರಿಯ ಡಿಜಿಟಲ್ ಕಾರ್ಯಗತಗೊಳಿಸುವಿಕೆಗೆ (active digital execution) ನಾಂದಿ ಹಾಡುತ್ತದೆ.

ಚಾಟ್‌ಬಾಟ್‌ನಿಂದ ಸ್ವಾಯತ್ತ ಏಜೆಂಟ್‌ವರೆಗೆ (From Chatbot to Autonomous Agent)

ಈ ಹಿಂದೆ, ಕಂಪ್ಯೂಟರ್ ಇಂಟರ್ಫೇಸ್ ಅನ್ನು ನಿರ್ವಹಿಸುವ ಸಾಮರ್ಥ್ಯವು ಪ್ರತ್ಯೇಕ Gemini 2.5 ಮಾಡೆಲ್‌ಗೆ ಸೀಮಿತವಾಗಿತ್ತು, ಇದು ಸುಗಮ ಸಂಯೋಜನೆಗೆ ಅಡ್ಡಿಯಾಗಿತ್ತು. ಈ ಕಾರ್ಯlಕ್ಷಮತೆಯನ್ನು ನೇರವಾಗಿ Gemini 3.5 Flash ನಲ್ಲಿ ಅಳವಡಿಸುವ ಮೂಲಕ, Google ಡೆವಲಪರ್‌ಗಳು ಅತ್ಯಂತ ಪರಿಣಾಮಕಾರಿ, ಮಲ್ಟಿಮೋಡಲ್ ಏಜೆಂಟ್‌ಗಳನ್ನು (multimodal agents) ನಿರ್ಮಿಸಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತಿದೆ. function calling, Google Search ಮತ್ತು Maps ನಂತಹ ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಸಾಮರ್ಥ್ಯಗಳೊಂದಿಗೆ ಸಂಯೋಜಿಸಿದಾಗ, ಈ ಏಜೆಂಟ್‌ಗಳು ಡೆಸ್ಕ್‌ಟಾಪ್, ಮೊಬೈಲ್ ಮತ್ತು ಬ್ರೌಸರ್ ಪರಿಸರಗಳಲ್ಲಿ ಸಂಕೀರ್ಣ ಕಾರ್ಯವಿಧಾನಗಳನ್ನು (workflows) ನಿರ್ವಹಿಸಬಲ್ಲವು. ಇದು ಸ್ವಯಂಚಾಲಿತ ಸಾಫ್ಟ್‌ವೇರ್ ಟೆಸ್ಟಿಂಗ್, ಸಂಕೀರ್ಣ ಕಚೇರಿ ಆಡಳಿತ ಮತ್ತು ಕ್ರಾಸ್-ಪ್ಲಾಟ್‌ಫಾರ್ಮ್ ಡೇಟಾ ಎಂಟ್ರಿಯಂತಹ ಹೆಚ್ಚಿನ ಪ್ರಮಾಣದ ಆಟೊಮೇಷನ್ ಕಾರ್ಯಗಳಿಗೆ ಈ ಮಾಡೆಲ್ ಅನ್ನು ಒಂದು ಆದರ್ಶ ಇಂಜಿನ್ ಆಗಿ ಮಾಡುತ್ತದೆ.

ಕಾರ್ಯಕ್ಷಮತೆಯ ಬೆಂಚ್‌ಮಾರ್ಕಿಂಗ್: Gemini ಮತ್ತು ಇತರರ ನಡುವೆ

ಈ ಸಂಯೋಜನೆಯ ಪ್ರಭಾವವು OSWorld ಬೆಂಚ್‌ಮಾರ್ಕ್‌ನಲ್ಲಿ ಅತ್ಯಂತ ಸ್ಪಷ್ಟವಾಗಿ ಕಂಡುಬರುತ್ತದೆ, ಇದು ಕಂಪ್ಯೂಟರ್ ವ್ಯವಸ್ಥೆಯನ್ನು ನಿರ್ವಹಿಸುವ AI ನ ಸಾಮರ್ಥ್ಯವನ್ನು ಅಳೆಯುತ್ತದೆ. Gemini 3.5 Flash 78.4 ರ ಪ್ರಭಾವಶಾಲಿ ಸ್ಕೋರ್ ಸಾಧಿಸಿದೆ, ಇದು ಉದ್ಯಮದ ಅನೇಕ ಸಮಾನ ಸಂಸ್ಥೆಗಳಿಗೆ ಹೋಲಿಸಿದರೆ ಶ್ರೇಷ್ಠ ತರ್ಕ ಮತ್ತು ಕಾರ್ಯಗತಗೊಳಿಸುವಿಕೆಯನ್ನು ಪ್ರದರ್ಶಿಸುತ್ತದೆ.

ಸಂದರ್ಭಕ್ಕಾಗಿ ಹೇಳುವುದಾದರೆ, Gemini 3.5 Flash એ Gemini 3 Flash (65.1) ಮತ್ತು GPT-5.4 mini (72.1) ಅನ್ನು ಹಿಂದಿಕ್ಕಿದೆ. ಇದು ಉದ್ಯಮದ ನಾಯಕ Anthropic Opus 4.8 (83.4) ಮತ್ತು GPT-5.5 (78.7) ರ ಅತಿ ಕಡಿಮೆ ಅಂತರದಲ್ಲಿ ಸ್ವಲ್ಪ ಹಿಂದೆ ಇದ್ದರೂ, Sonnet 4.6 (78.4) ರ ಕಾರ್ಯಕ್ಷಮತೆಗೆ ಸಮನಾಗಿ ಮತ್ತು Gemini 3.1 Pro (76.2) ಅನ್ನು ಸೋಲಿಸುವ ಮೂಲಕ ಅತ್ಯಂತ ಸ್ಪರ್ಧಾತ್ಮಕವಾಗಿ ಉಳಿದಿದೆ. ಈ ಸ್ಪರ್ಧಾತ್ಮಕ ಸ್ಥಾನಮಾನವು ವೇಗ ಮತ್ತು ಅತ್ಯಾಧುನಿಕ ಕಂಪ್ಯೂಟರ್ ಸಂವಹನದ ನಡುವೆ ಸಮತೋಲನವನ್ನು ಬಯಸುವ ಡೆವಲಪರ್‌ಗಳಿಗೆ Gemini 3.5 Flash ಅನ್ನು ಉನ್ನತ ಮಟ್ಟದ ಆಯ್ಕೆಯನ್ನಾಗಿ ಎತ್ತಿ ತೋರಿಸುತ್ತದೆ.

ಸ್ವಾಯತ್ತ ನಿಯಂತ್ರಣದಲ್ಲಿ ಭದ್ರತೆ ಮತ್ತು ಸುರಕ್ಷತೆ

ಬಳಕೆದಾರರ ಇಂಟರ್ಫೇಸ್ ಮೇಲೆ LLM ಗೆ ನಿಯಂತ್ರಣವನ್ನು ನೀಡುವುದು ಗಮನಾರ್ಹ ಭದ್ರತಾ ಅಪಾಯಗಳನ್ನು ಉಂಟುಮಾಡುತ್ತದೆ, ವಿಶೇಷವಾಗಿ prompt injection ದಾಳಿಗಳಿಗೆ ಸಂಬಂಧಿಸಿದಂತೆ. ಈ ಬೆದರಿಕೆಗಳನ್ನು ತಗ್ಗಿಸಲು, Google ಕಠಿಣವಾದ adversarial training ಅನ್ನು ಜಾರಿಗೆ ತಂದಿದೆ ಮತ್ತು ಎರಡು ವಿಭಿನ್ನ ಎಂಟರ್‌ಪ್ರೈಸ್-ಗ್ರೇಡ್ ಸುರಕ್ಷತಾ ಕ್ರಮಗಳನ್ನು (safeguards) ನೀಡುತ್ತದೆ.

ಮೊದಲ ಸುರಕ್ಷತಾ ಕ್ರಮವು ಫೈಲ್‌ಗಳನ್ನು ಅಳಿಸುವುದು ಅಥವಾ ಹಣಕಾಸಿನ ವಹಿವಾಟುಗಳನ್ನು ಮಾಡುವುದು போன்ற ಸೂಕ್ಷ್ಮ ಅಥವಾ ಹಿಂದಕ್ಕೆ ಪಡೆಯಲಾಗದ (irreversible) ಕ್ರಮಗಳನ್ನು ಮಾಡುವ ಮೊದಲು ಮಾಡೆಲ್‌ನಿಂದ ಸ್ಪಷ್ಟ ಬಳಕೆದಾರರ ದೃಢೀಕರಣವನ್ನು ಬಯಸುತ್ತದೆ. ಎರಡನೇ ಸುರಕ್ಷತಾ ಕ್ರಮವು ಪ್ರಾಸಿಕ (indirect) prompt injection ಪ್ರಯತ್ನವನ್ನು ಸಿಸ್ಟಮ್ ಪತ್ತೆಹಚ್ಚಿದರೆ ಯಾವುದೇ ಕಾರ್ಯವನ್ನು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ನಿಲ್ಲಿಸುತ್ತದೆ. ಈ ಅಂತರ್ಗತ ಸಾಧನಗಳ ಹೊರತಾಗಿ, ಏಜೆಂಟ್‌ನ ಪರಿಸರವನ್ನು sandboxing ಮಾಡುವುದು, ಮಾನವ ಮೇಲ್ವಿಚಾರಣೆಯನ್ನು ಕಾಯ್ದುಕೊಳ್ಳುವುದು ಮತ್ತು ಕಟ್ಟುನಿಟ್ಟಾದ ಪ್ರವೇಶ ನಿಯಂತ್ರಣಗಳನ್ನು ಜಾರಿಗೆ ತರುವುದನ್ನು ಒಳಗೊಂಡಿರುವ "defense-in-depth" ತಂತ್ರವನ್ನು ಅಳವಡಿಸಿಕೊಳ್ಳುವಂತೆ Google ಡೆವಲಪರ್‌ಗಳಿಗೆ ಬಲವಾಗಿ ಸಲಹೆ ನೀಡುತ್ತದೆ.

ಲಭ್ಯತೆ ಮತ್ತು ಅನುಷ್ಠಾನ

ಈ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಬಳಸಿಕೊಳ್ಳಲು ಬಯಸುವ ಡೆವಲಪರ್‌ಗಳು Gemini API ಮತ್ತು Gemini Enterprise Agent Platform ಮೂಲಕ ತಕ್ಷಣವೇ ಪ್ರವೇಶಿಸಬಹುದು. ಬಿಲ್ಡ್ ಪ್ರಕ್ರಿಯೆಯನ್ನು ವೇಗಗೊಳಿಸಲು, Google GitHub ರೆಫರೆನ್ಸ್ ಇಂಪ್ಲಿಮೆಂಟೇಶನ್ ಮತ್ತು Browserbase ಡೆಮೋವನ್ನು ಒದಗಿಸಿದೆ, ಇದು ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಸಾಫ್ಟ್‌ವೇರ್ ಪರಿಸರ ವ್ಯವಸ್ಥೆಗಳಿಗೆ ಸ್ವಾಯತ್ತ ಕಂಪ್ಯೂಟರ್ ನಿಯಂತ್ರಣವನ್ನು ಸಂಯೋಜಿಸಲು ಸ್ಪಷ್ಟ ಮಾರ್ಗಸೂಚಿಯನ್ನು ನೀಡುತ್ತದೆ.

ಪ್ರಮುಖ ಅಂಶಗಳು

ನೇರ ಸಂಯೋಜನೆ: ಕಂಪ್ಯೂಟರ್ ನಿಯಂತ್ರಣವು ಈಗ Gemini 3.5 Flash ನಲ್ಲಿ ನೈಸರ್ಗಿಕವಾಗಿ ಅಳವಡಿಸಲಾಗಿದೆ, ಇದು ಪರದೆಗಳು ಮತ್ತು ಬ್ರೌಸರ್‌ಗಳೊಂದಿಗೆ ಸುಗಮ ಮಲ್ಟಿಮೋಡಲ್ ಸಂವಹನವನ್ನು ಸಕ್ರಿಯಗೊಳಿಸುತ್ತದೆ.
ಉನ್ನತ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು: 78.4 ರ OSWorld ಸ್ಕೋರ್‌ನೊಂದಿಗೆ, Gemini 3.5 Flash ಸ್ವಾಯತ್ತ ಕಂಪ್ಯೂಟರ್ ಕಾರ್ಯಗಳಿಗಾಗಿ ಅತ್ಯುತ್ತಮ ಕಾರ್ಯಕ್ಷಮತೆ ಹೊಂದಿರುವ ಮಾಡೆಲ್ ಆಗಿದ್ದು, GPT-5.4 mini ಅನ್ನು ಹಿಂದಿಕ್ಕುತ್ತದೆ.
ಎಂಟರ್‌ಪ್ರೈಸ್ ಭದ್ರತೆ: Google ತನ್ನ adversarial training ಮತ್ತು ಸೂಕ್ಷ್ಮ ಕ್ರಮಗಳಿಗಾಗಿ ಕಡ್ಡಾಯ ಬಳಕೆದಾರರ ದೃಢೀಕರಣದಂತಹ ಐಚ್ಛಿಕ ಸುರಕ್ಷತಾ ಕ್ರಮಗಳ ಮೂಲಕ ಸ್ವಾಯತ್ತ ಏಜೆಂಟ್‌ಗಳ ಅಪಾಯಗಳನ್ನು ಎದುರಿಸುತ್ತದೆ.

Google Integrates Computer Control into Gemini 3.5 Flash

Google ತನ್ನ Gemini 3.5 Flash ನಲ್ಲಿ ಕಂಪ್ಯೂಟರ್ ನಿಯಂತ್ರಣವನ್ನು (Computer Control) ಸಂಯೋಜಿಸಿದೆ

ಚಾಟ್‌ಬಾಟ್‌ನಿಂದ ಸ್ವಾಯತ್ತ ಏಜೆಂಟ್‌ವರೆಗೆ (From Chatbot to Autonomous Agent)

ಕಾರ್ಯಕ್ಷಮತೆಯ ಬೆಂಚ್‌ಮಾರ್ಕಿಂಗ್: Gemini ಮತ್ತು ಇತರರ ನಡುವೆ

ಸ್ವಾಯತ್ತ ನಿಯಂತ್ರಣದಲ್ಲಿ ಭದ್ರತೆ ಮತ್ತು ಸುರಕ್ಷತೆ

ಲಭ್ಯತೆ ಮತ್ತು ಅನುಷ್ಠಾನ

ಪ್ರಮುಖ ಅಂಶಗಳು

Continue reading

ಗೂಗಲ್ ಡೀಪ್‌ಮೈಂಡ್‌ನ ಹೊಸ ಎಐ ನಿಯಂತ್ರಣ ಮಾರ್ಗಸೂಚಿ: ಏಜೆಂಟ್‌ಗಳನ್ನು ಒಳಬರುವ ಬೆದರಿಕೆಗಳಾಗಿ ಪರಿಗಣಿಸುವುದು

ಏಜೆಂಟ್‌ಗಳ ಹೊಸ ಯುಗಕ್ಕೆ ಚಾಲನೆ ನೀಡಲು ಗೂಗಲ್ ಜೆಮಿನಿಯನ್ನು ಇಂಟರಾಕ್ಷನ್ಸ್ ಎಪಿಐಗೆ (Interactions API) ಬದಲಾಯಿಸುತ್ತಿದೆ

ಜೆಮಿನಿ ಏಜೆಂಟ್‌ಗಳೊಂದಿಗೆ ನಿರ್ಮಿಸಲು ಗೂಗಲ್ ಇಂಟರಾಕ್ಷನ್ಸ್ API ಅನ್ನು ಡಿಫಾಲ್ಟ್ ವಿಧಾನವನ್ನಾಗಿ ಮಾಡಿದೆ

Gemini Interactions API: ಸಂಪೂರ್ಣ ಮೈಗ್ರೇಷನ್ ಮಾರ್ಗದರ್ಶಿ

Gemini 3.5 Flash Now Has Native Computer Use