Google ತನ್ನ Gemini 3.5 Flash ನಲ್ಲಿ ಕಂಪ್ಯೂಟರ್ ನಿಯಂತ್ರಣವನ್ನು (Computer Control) ಸಂಯೋಜಿಸಿದೆ
Google ತನ್ನ Gemini 3.5 Flash ಮಾಡೆಲ್ಗೆ ನೇರವಾಗಿ "Computer Use" ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಸಂಯೋಜಿಸುವ ಮೂಲಕ ಏಜೆಂಟಿಕ್ AI (agentic AI) ಕ್ಷೇತ್ರದಲ್ಲಿ ಒಂದು ಪ್ರಮುಖ ಮೈಲಿಗಲ್ಲನ್ನು ತಲುಪಿದೆ. ಈ ಅಪ್ಡೇಟ್ ಮಾಡೆಲ್ ಕಂಪ್ಯೂಟರ್ ಪರದೆಗಳು, ವೆಬ್ ಬ್ರೌಸರ್ಗಳು ಮತ್ತು ಮೊಬೈಲ್ ಸಾಧನಗಳನ್ನು ನೈಜ ಸಮಯದಲ್ಲಿ (real-time) ಗ್ರಹಿಸಲು, ಅರ್ಥೈಸಿಕೊಳ್ಳಲು ಮತ್ತು ಅವುಗಳೊಂದಿಗೆ ಸಂವಹನ ನಡೆಸಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ, ಇದು ಕೇವಲ ಪಠ್ಯ ಆಧಾರಿತ ಚಾಟ್ಗಿಂತ ಮೀರಿ ಸಕ್ರಿಯ ಡಿಜಿಟಲ್ ಕಾರ್ಯಗತಗೊಳಿಸುವಿಕೆಗೆ (active digital execution) ನಾಂದಿ ಹಾಡುತ್ತದೆ.
ಚಾಟ್ಬಾಟ್ನಿಂದ ಸ್ವಾಯತ್ತ ಏಜೆಂಟ್ವರೆಗೆ (From Chatbot to Autonomous Agent)
ಈ ಹಿಂದೆ, ಕಂಪ್ಯೂಟರ್ ಇಂಟರ್ಫೇಸ್ ಅನ್ನು ನಿರ್ವಹಿಸುವ ಸಾಮರ್ಥ್ಯವು ಪ್ರತ್ಯೇಕ Gemini 2.5 ಮಾಡೆಲ್ಗೆ ಸೀಮಿತವಾಗಿತ್ತು, ಇದು ಸುಗಮ ಸಂಯೋಜನೆಗೆ ಅಡ್ಡಿಯಾಗಿತ್ತು. ಈ ಕಾರ್ಯlಕ್ಷಮತೆಯನ್ನು ನೇರವಾಗಿ Gemini 3.5 Flash ನಲ್ಲಿ ಅಳವಡಿಸುವ ಮೂಲಕ, Google ಡೆವಲಪರ್ಗಳು ಅತ್ಯಂತ ಪರಿಣಾಮಕಾರಿ, ಮಲ್ಟಿಮೋಡಲ್ ಏಜೆಂಟ್ಗಳನ್ನು (multimodal agents) ನಿರ್ಮಿಸಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತಿದೆ. function calling, Google Search ಮತ್ತು Maps ನಂತಹ ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಸಾಮರ್ಥ್ಯಗಳೊಂದಿಗೆ ಸಂಯೋಜಿಸಿದಾಗ, ಈ ಏಜೆಂಟ್ಗಳು ಡೆಸ್ಕ್ಟಾಪ್, ಮೊಬೈಲ್ ಮತ್ತು ಬ್ರೌಸರ್ ಪರಿಸರಗಳಲ್ಲಿ ಸಂಕೀರ್ಣ ಕಾರ್ಯವಿಧಾನಗಳನ್ನು (workflows) ನಿರ್ವಹಿಸಬಲ್ಲವು. ಇದು ಸ್ವಯಂಚಾಲಿತ ಸಾಫ್ಟ್ವೇರ್ ಟೆಸ್ಟಿಂಗ್, ಸಂಕೀರ್ಣ ಕಚೇರಿ ಆಡಳಿತ ಮತ್ತು ಕ್ರಾಸ್-ಪ್ಲಾಟ್ಫಾರ್ಮ್ ಡೇಟಾ ಎಂಟ್ರಿಯಂತಹ ಹೆಚ್ಚಿನ ಪ್ರಮಾಣದ ಆಟೊಮೇಷನ್ ಕಾರ್ಯಗಳಿಗೆ ಈ ಮಾಡೆಲ್ ಅನ್ನು ಒಂದು ಆದರ್ಶ ಇಂಜಿನ್ ಆಗಿ ಮಾಡುತ್ತದೆ.
ಕಾರ್ಯಕ್ಷಮತೆಯ ಬೆಂಚ್ಮಾರ್ಕಿಂಗ್: Gemini ಮತ್ತು ಇತರರ ನಡುವೆ
ಈ ಸಂಯೋಜನೆಯ ಪ್ರಭಾವವು OSWorld ಬೆಂಚ್ಮಾರ್ಕ್ನಲ್ಲಿ ಅತ್ಯಂತ ಸ್ಪಷ್ಟವಾಗಿ ಕಂಡುಬರುತ್ತದೆ, ಇದು ಕಂಪ್ಯೂಟರ್ ವ್ಯವಸ್ಥೆಯನ್ನು ನಿರ್ವಹಿಸುವ AI ನ ಸಾಮರ್ಥ್ಯವನ್ನು ಅಳೆಯುತ್ತದೆ. Gemini 3.5 Flash 78.4 ರ ಪ್ರಭಾವಶಾಲಿ ಸ್ಕೋರ್ ಸಾಧಿಸಿದೆ, ಇದು ಉದ್ಯಮದ ಅನೇಕ ಸಮಾನ ಸಂಸ್ಥೆಗಳಿಗೆ ಹೋಲಿಸಿದರೆ ಶ್ರೇಷ್ಠ ತರ್ಕ ಮತ್ತು ಕಾರ್ಯಗತಗೊಳಿಸುವಿಕೆಯನ್ನು ಪ್ರದರ್ಶಿಸುತ್ತದೆ.
ಸಂದರ್ಭಕ್ಕಾಗಿ ಹೇಳುವುದಾದರೆ, Gemini 3.5 Flash એ Gemini 3 Flash (65.1) ಮತ್ತು GPT-5.4 mini (72.1) ಅನ್ನು ಹಿಂದಿಕ್ಕಿದೆ. ಇದು ಉದ್ಯಮದ ನಾಯಕ Anthropic Opus 4.8 (83.4) ಮತ್ತು GPT-5.5 (78.7) ರ ಅತಿ ಕಡಿಮೆ ಅಂತರದಲ್ಲಿ ಸ್ವಲ್ಪ ಹಿಂದೆ ಇದ್ದರೂ, Sonnet 4.6 (78.4) ರ ಕಾರ್ಯಕ್ಷಮತೆಗೆ ಸಮನಾಗಿ ಮತ್ತು Gemini 3.1 Pro (76.2) ಅನ್ನು ಸೋಲಿಸುವ ಮೂಲಕ ಅತ್ಯಂತ ಸ್ಪರ್ಧಾತ್ಮಕವಾಗಿ ಉಳಿದಿದೆ. ಈ ಸ್ಪರ್ಧಾತ್ಮಕ ಸ್ಥಾನಮಾನವು ವೇಗ ಮತ್ತು ಅತ್ಯಾಧುನಿಕ ಕಂಪ್ಯೂಟರ್ ಸಂವಹನದ ನಡುವೆ ಸಮತೋಲನವನ್ನು ಬಯಸುವ ಡೆವಲಪರ್ಗಳಿಗೆ Gemini 3.5 Flash ಅನ್ನು ಉನ್ನತ ಮಟ್ಟದ ಆಯ್ಕೆಯನ್ನಾಗಿ ಎತ್ತಿ ತೋರಿಸುತ್ತದೆ.
ಸ್ವಾಯತ್ತ ನಿಯಂತ್ರಣದಲ್ಲಿ ಭದ್ರತೆ ಮತ್ತು ಸುರಕ್ಷತೆ
ಬಳಕೆದಾರರ ಇಂಟರ್ಫೇಸ್ ಮೇಲೆ LLM ಗೆ ನಿಯಂತ್ರಣವನ್ನು ನೀಡುವುದು ಗಮನಾರ್ಹ ಭದ್ರತಾ ಅಪಾಯಗಳನ್ನು ಉಂಟುಮಾಡುತ್ತದೆ, ವಿಶೇಷವಾಗಿ prompt injection ದಾಳಿಗಳಿಗೆ ಸಂಬಂಧಿಸಿದಂತೆ. ಈ ಬೆದರಿಕೆಗಳನ್ನು ತಗ್ಗಿಸಲು, Google ಕಠಿಣವಾದ adversarial training ಅನ್ನು ಜಾರಿಗೆ ತಂದಿದೆ ಮತ್ತು ಎರಡು ವಿಭಿನ್ನ ಎಂಟರ್ಪ್ರೈಸ್-ಗ್ರೇಡ್ ಸುರಕ್ಷತಾ ಕ್ರಮಗಳನ್ನು (safeguards) ನೀಡುತ್ತದೆ.
ಮೊದಲ ಸುರಕ್ಷತಾ ಕ್ರಮವು ಫೈಲ್ಗಳನ್ನು ಅಳಿಸುವುದು ಅಥವಾ ಹಣಕಾಸಿನ ವಹಿವಾಟುಗಳನ್ನು ಮಾಡುವುದು போன்ற ಸೂಕ್ಷ್ಮ ಅಥವಾ ಹಿಂದಕ್ಕೆ ಪಡೆಯಲಾಗದ (irreversible) ಕ್ರಮಗಳನ್ನು ಮಾಡುವ ಮೊದಲು ಮಾಡೆಲ್ನಿಂದ ಸ್ಪಷ್ಟ ಬಳಕೆದಾರರ ದೃಢೀಕರಣವನ್ನು ಬಯಸುತ್ತದೆ. ಎರಡನೇ ಸುರಕ್ಷತಾ ಕ್ರಮವು ಪ್ರಾಸಿಕ (indirect) prompt injection ಪ್ರಯತ್ನವನ್ನು ಸಿಸ್ಟಮ್ ಪತ್ತೆಹಚ್ಚಿದರೆ ಯಾವುದೇ ಕಾರ್ಯವನ್ನು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ನಿಲ್ಲಿಸುತ್ತದೆ. ಈ ಅಂತರ್ಗತ ಸಾಧನಗಳ ಹೊರತಾಗಿ, ಏಜೆಂಟ್ನ ಪರಿಸರವನ್ನು sandboxing ಮಾಡುವುದು, ಮಾನವ ಮೇಲ್ವಿಚಾರಣೆಯನ್ನು ಕಾಯ್ದುಕೊಳ್ಳುವುದು ಮತ್ತು ಕಟ್ಟುನಿಟ್ಟಾದ ಪ್ರವೇಶ ನಿಯಂತ್ರಣಗಳನ್ನು ಜಾರಿಗೆ ತರುವುದನ್ನು ಒಳಗೊಂಡಿರುವ "defense-in-depth" ತಂತ್ರವನ್ನು ಅಳವಡಿಸಿಕೊಳ್ಳುವಂತೆ Google ಡೆವಲಪರ್ಗಳಿಗೆ ಬಲವಾಗಿ ಸಲಹೆ ನೀಡುತ್ತದೆ.
ಲಭ್ಯತೆ ಮತ್ತು ಅನುಷ್ಠಾನ
ಈ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಬಳಸಿಕೊಳ್ಳಲು ಬಯಸುವ ಡೆವಲಪರ್ಗಳು Gemini API ಮತ್ತು Gemini Enterprise Agent Platform ಮೂಲಕ ತಕ್ಷಣವೇ ಪ್ರವೇಶಿಸಬಹುದು. ಬಿಲ್ಡ್ ಪ್ರಕ್ರಿಯೆಯನ್ನು ವೇಗಗೊಳಿಸಲು, Google GitHub ರೆಫರೆನ್ಸ್ ಇಂಪ್ಲಿಮೆಂಟೇಶನ್ ಮತ್ತು Browserbase ಡೆಮೋವನ್ನು ಒದಗಿಸಿದೆ, ಇದು ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಸಾಫ್ಟ್ವೇರ್ ಪರಿಸರ ವ್ಯವಸ್ಥೆಗಳಿಗೆ ಸ್ವಾಯತ್ತ ಕಂಪ್ಯೂಟರ್ ನಿಯಂತ್ರಣವನ್ನು ಸಂಯೋಜಿಸಲು ಸ್ಪಷ್ಟ ಮಾರ್ಗಸೂಚಿಯನ್ನು ನೀಡುತ್ತದೆ.
ಪ್ರಮುಖ ಅಂಶಗಳು
- ನೇರ ಸಂಯೋಜನೆ: ಕಂಪ್ಯೂಟರ್ ನಿಯಂತ್ರಣವು ಈಗ Gemini 3.5 Flash ನಲ್ಲಿ ನೈಸರ್ಗಿಕವಾಗಿ ಅಳವಡಿಸಲಾಗಿದೆ, ಇದು ಪರದೆಗಳು ಮತ್ತು ಬ್ರೌಸರ್ಗಳೊಂದಿಗೆ ಸುಗಮ ಮಲ್ಟಿಮೋಡಲ್ ಸಂವಹನವನ್ನು ಸಕ್ರಿಯಗೊಳಿಸುತ್ತದೆ.
- ಉನ್ನತ ಬೆಂಚ್ಮಾರ್ಕ್ಗಳು: 78.4 ರ OSWorld ಸ್ಕೋರ್ನೊಂದಿಗೆ, Gemini 3.5 Flash ಸ್ವಾಯತ್ತ ಕಂಪ್ಯೂಟರ್ ಕಾರ್ಯಗಳಿಗಾಗಿ ಅತ್ಯುತ್ತಮ ಕಾರ್ಯಕ್ಷಮತೆ ಹೊಂದಿರುವ ಮಾಡೆಲ್ ಆಗಿದ್ದು, GPT-5.4 mini ಅನ್ನು ಹಿಂದಿಕ್ಕುತ್ತದೆ.
- ಎಂಟರ್ಪ್ರೈಸ್ ಭದ್ರತೆ: Google ತನ್ನ adversarial training ಮತ್ತು ಸೂಕ್ಷ್ಮ ಕ್ರಮಗಳಿಗಾಗಿ ಕಡ್ಡಾಯ ಬಳಕೆದಾರರ ದೃಢೀಕರಣದಂತಹ ಐಚ್ಛಿಕ ಸುರಕ್ಷತಾ ಕ್ರಮಗಳ ಮೂಲಕ ಸ್ವಾಯತ್ತ ಏಜೆಂಟ್ಗಳ ಅಪಾಯಗಳನ್ನು ಎದುರಿಸುತ್ತದೆ.
