Google ने Gemini 3.5 Flash मध्ये 'Computer Control' समाविष्ट केले
Google ने Gemini 3.5 Flash मॉडेलमध्ये थेट "Computer Use" क्षमता समाविष्ट करून 'agentic AI' क्षेत्रात एक महत्त्वपूर्ण टप्पा गाठला आहे. या अपडेटमुळे हे मॉडेल संगणक स्क्रीन, वेब ब्राउझर आणि मोबाईल डिव्हाइसेसना रिअल-टाइममध्ये पाहू शकते, त्यांचा अर्थ लावू शकते आणि त्यांच्याशी संवाद साधू शकते, ज्यामुळे ते केवळ मजकूर-आधारित चॅटच्या पलीकडे जाऊन सक्रिय डिजिटल अंमलबजावणी करू शकते.
चॅटबॉटपासून स्वायत्त एजंटपर्यंत (Autonomous Agent)
यापूर्वी, संगणक इंटरफेस चालवण्याची क्षमता एका वेगळ्या Gemini 2.5 मॉडेलपुरती मर्यादित होती, ज्यामुळे अखंड एकत्रीकरणात अडथळा येत असे. ही कार्यक्षमता थेट Gemini 3.5 Flash मध्ये समाविष्ट करून, Google डेव्हलपर्सना अत्यंत कार्यक्षम, मल्टीमोडल एजंट्स तयार करण्यास सक्षम करत आहे. function calling, Google Search आणि Maps सारख्या विद्यमान क्षमतांच्या संयोजनामुळे, हे एजंट्स डेस्कटॉप, मोबाईल आणि ब्राउझर वातावरणात जटिल वर्कफ्लो हाताळू शकतात. यामुळे हे मॉडेल ऑटोमेटेड सॉफ्टवेअर टेस्टिंग, जटिल ऑफिस प्रशासन आणि क्रॉस-प्लॅटफॉर्म डेटा एंट्री यांसारख्या मोठ्या प्रमाणावरील ऑटोमेशन कामांसाठी एक आदर्श इंजिन ठरते.
कामगिरीचे बेंचमार्किंग: Gemini विरुद्ध इतर मॉडेल्स
या एकत्रीकरणाचा प्रभाव OSWorld बेंचमार्कमध्ये सर्वात स्पष्टपणे दिसून येतो, जो संगणक प्रणाली चालवण्याची AI ची क्षमता मोजतो. Gemini 3.5 Flash ने 78.4 चा प्रभावी स्कोअर मिळवला आहे, जो उद्योगातील अनेक इतर मॉडेल्सच्या तुलनेत उत्कृष्ट तर्कशक्ती आणि अंमलबजावणी दर्शवतो.
संदर्भासाठी, Gemini 3.5 Flash ने Gemini 3 Flash (65.1) आणि GPT-5.4 mini (72.1) पेक्षा चांगली कामगिरी केली आहे. जरी हे मॉडेल उद्योगातील आघाडीचे Anthropic Opus 4.8 (83.4) आणि GPT-5.5 (78.7) च्या अगदी जवळ असले तरी, ते अत्यंत स्पर्धात्मक आहे; हे Sonnet 4.6 (78.4) च्या कामगिरीशी मिळतेजुळते आहे आणि Gemini 3.1 Pro (76.2) ला मागे टाकते. हे स्पर्धात्मक स्थान वेग आणि प्रगत संगणक संवाद यांच्यात संतुलन शोधणाऱ्या डेव्हलपर्ससाठी Gemini 3.5 Flash ला एक उत्कृष्ट पर्याय म्हणून अधोरेखित करते.
स्वायत्त नियंत्रणामध्ये सुरक्षा आणि सुरक्षितता
LLM ला वापरकर्त्याच्या इंटरफेसवर नियंत्रण देणे हे महत्त्वपूर्ण सुरक्षा धोके निर्माण करते, विशेषतः 'prompt injection' हल्ल्यांच्या संदर्भात. हे धोके कमी करण्यासाठी, Google ने कठोर 'adversarial training' लागू केली आहे आणि दोन वेगळ्या एंटरप्राइझ-ग्रेड सुरक्षा उपाय (safeguards) प्रदान केले आहेत.
पहिला सुरक्षा उपाय मॉडेलला फाईल्स डिलीट करणे किंवा आर्थिक व्यवहार करणे यांसारखी संवेदनशील किंवा अपरिवर्तनीय कृती करण्यापूर्वी वापरकर्त्याची स्पष्ट संमती घेण्याची आवश्यकता निर्माण करतो. दुसरा सुरक्षा उपाय जर सिस्टमने अप्रत्यक्ष 'prompt injection' चा प्रयत्न ओळखला, तर कोणताही टास्क आपोआप थांबवतो. या अंगभूत साधनांव्यतिरिक्त, Google डेव्हलपर्सना "defense-in-depth" धोरण अवलंबण्याचा सल्ला देते, ज्यामध्ये एजंटच्या वातावरणाचे सँडबॉक्सिंग (sandboxing) करणे, मानवी देखरेख राखणे आणि कडक प्रवेश नियंत्रण (access controls) लागू करणे यांचा समावेश आहे.
उपलब्धता आणि अंमलबजावणी
या क्षमतांचा लाभ घेऊ इच्छिणारे डेव्हलपर्स Gemini API आणि Gemini Enterprise Agent Platform द्वारे त्यांचा त्वरित वापर करू शकतात. निर्मिती प्रक्रिया वेगवान करण्यासाठी, Google ने GitHub संदर्भ अंमलबजावणी (reference implementation) आणि Browserbase डेमो प्रदान केला आहे, जो विद्यमान सॉफ्टवेअर इकोसिस्टममध्ये स्वायत्त संगणक नियंत्रण समाविष्ट करण्यासाठी एक स्पष्ट रोडमॅप प्रदान करतो.
मुख्य मुद्दे
- थेट एकत्रीकरण: 'Computer control' आता Gemini 3.5 Flash मध्ये मूळतः समाविष्ट आहे, ज्यामुळे स्क्रीन आणि ब्राउझरसोबत अखंड मल्टीमोडल संवाद शक्य होतो.
- उच्च बेंचमार्क्स: 78.4 च्या OSWorld स्कोअरसह, Gemini 3.5 Flash हे स्वायत्त संगणक कार्यांसाठी एक उत्कृष्ट कामगिरी करणारे मॉडेल आहे, जे GPT-5.4 mini पेक्षा सरस आहे.
- एंटरप्राइझ सुरक्षा: Google 'adversarial training' आणि संवेदनशील कृतींसाठी अनिवार्य वापरकर्ता संमती यांसारख्या पर्यायी सुरक्षा उपायांद्वारे स्वायत्त एजंट्सच्या जोखमींचे निराकरण करते.
