गुगलने जेमिनी ३.५ फ्लॅशमध्ये 'कॉम्प्युटर कंट्रोल'ची सुविधा समाविष्ट केली आहे

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialमागील आठवडा3min read

गुगलने जेमिनी ३.५ फ्लॅशमध्ये 'कॉम्प्युटर कंट्रोल'ची सुविधा समाविष्ट केली आहे

In this article

Google ने Gemini 3.5 Flash मध्ये 'Computer Control' समाविष्ट केले

Google ने Gemini 3.5 Flash मॉडेलमध्ये थेट "Computer Use" क्षमता समाविष्ट करून 'agentic AI' क्षेत्रात एक महत्त्वपूर्ण टप्पा गाठला आहे. या अपडेटमुळे हे मॉडेल संगणक स्क्रीन, वेब ब्राउझर आणि मोबाईल डिव्हाइसेसना रिअल-टाइममध्ये पाहू शकते, त्यांचा अर्थ लावू शकते आणि त्यांच्याशी संवाद साधू शकते, ज्यामुळे ते केवळ मजकूर-आधारित चॅटच्या पलीकडे जाऊन सक्रिय डिजिटल अंमलबजावणी करू शकते.

चॅटबॉटपासून स्वायत्त एजंटपर्यंत (Autonomous Agent)

यापूर्वी, संगणक इंटरफेस चालवण्याची क्षमता एका वेगळ्या Gemini 2.5 मॉडेलपुरती मर्यादित होती, ज्यामुळे अखंड एकत्रीकरणात अडथळा येत असे. ही कार्यक्षमता थेट Gemini 3.5 Flash मध्ये समाविष्ट करून, Google डेव्हलपर्सना अत्यंत कार्यक्षम, मल्टीमोडल एजंट्स तयार करण्यास सक्षम करत आहे. function calling, Google Search आणि Maps सारख्या विद्यमान क्षमतांच्या संयोजनामुळे, हे एजंट्स डेस्कटॉप, मोबाईल आणि ब्राउझर वातावरणात जटिल वर्कफ्लो हाताळू शकतात. यामुळे हे मॉडेल ऑटोमेटेड सॉफ्टवेअर टेस्टिंग, जटिल ऑफिस प्रशासन आणि क्रॉस-प्लॅटफॉर्म डेटा एंट्री यांसारख्या मोठ्या प्रमाणावरील ऑटोमेशन कामांसाठी एक आदर्श इंजिन ठरते.

कामगिरीचे बेंचमार्किंग: Gemini विरुद्ध इतर मॉडेल्स

या एकत्रीकरणाचा प्रभाव OSWorld बेंचमार्कमध्ये सर्वात स्पष्टपणे दिसून येतो, जो संगणक प्रणाली चालवण्याची AI ची क्षमता मोजतो. Gemini 3.5 Flash ने 78.4 चा प्रभावी स्कोअर मिळवला आहे, जो उद्योगातील अनेक इतर मॉडेल्सच्या तुलनेत उत्कृष्ट तर्कशक्ती आणि अंमलबजावणी दर्शवतो.

संदर्भासाठी, Gemini 3.5 Flash ने Gemini 3 Flash (65.1) आणि GPT-5.4 mini (72.1) पेक्षा चांगली कामगिरी केली आहे. जरी हे मॉडेल उद्योगातील आघाडीचे Anthropic Opus 4.8 (83.4) आणि GPT-5.5 (78.7) च्या अगदी जवळ असले तरी, ते अत्यंत स्पर्धात्मक आहे; हे Sonnet 4.6 (78.4) च्या कामगिरीशी मिळतेजुळते आहे आणि Gemini 3.1 Pro (76.2) ला मागे टाकते. हे स्पर्धात्मक स्थान वेग आणि प्रगत संगणक संवाद यांच्यात संतुलन शोधणाऱ्या डेव्हलपर्ससाठी Gemini 3.5 Flash ला एक उत्कृष्ट पर्याय म्हणून अधोरेखित करते.

स्वायत्त नियंत्रणामध्ये सुरक्षा आणि सुरक्षितता

LLM ला वापरकर्त्याच्या इंटरफेसवर नियंत्रण देणे हे महत्त्वपूर्ण सुरक्षा धोके निर्माण करते, विशेषतः 'prompt injection' हल्ल्यांच्या संदर्भात. हे धोके कमी करण्यासाठी, Google ने कठोर 'adversarial training' लागू केली आहे आणि दोन वेगळ्या एंटरप्राइझ-ग्रेड सुरक्षा उपाय (safeguards) प्रदान केले आहेत.

पहिला सुरक्षा उपाय मॉडेलला फाईल्स डिलीट करणे किंवा आर्थिक व्यवहार करणे यांसारखी संवेदनशील किंवा अपरिवर्तनीय कृती करण्यापूर्वी वापरकर्त्याची स्पष्ट संमती घेण्याची आवश्यकता निर्माण करतो. दुसरा सुरक्षा उपाय जर सिस्टमने अप्रत्यक्ष 'prompt injection' चा प्रयत्न ओळखला, तर कोणताही टास्क आपोआप थांबवतो. या अंगभूत साधनांव्यतिरिक्त, Google डेव्हलपर्सना "defense-in-depth" धोरण अवलंबण्याचा सल्ला देते, ज्यामध्ये एजंटच्या वातावरणाचे सँडबॉक्सिंग (sandboxing) करणे, मानवी देखरेख राखणे आणि कडक प्रवेश नियंत्रण (access controls) लागू करणे यांचा समावेश आहे.

उपलब्धता आणि अंमलबजावणी

या क्षमतांचा लाभ घेऊ इच्छिणारे डेव्हलपर्स Gemini API आणि Gemini Enterprise Agent Platform द्वारे त्यांचा त्वरित वापर करू शकतात. निर्मिती प्रक्रिया वेगवान करण्यासाठी, Google ने GitHub संदर्भ अंमलबजावणी (reference implementation) आणि Browserbase डेमो प्रदान केला आहे, जो विद्यमान सॉफ्टवेअर इकोसिस्टममध्ये स्वायत्त संगणक नियंत्रण समाविष्ट करण्यासाठी एक स्पष्ट रोडमॅप प्रदान करतो.

मुख्य मुद्दे

थेट एकत्रीकरण: 'Computer control' आता Gemini 3.5 Flash मध्ये मूळतः समाविष्ट आहे, ज्यामुळे स्क्रीन आणि ब्राउझरसोबत अखंड मल्टीमोडल संवाद शक्य होतो.
उच्च बेंचमार्क्स: 78.4 च्या OSWorld स्कोअरसह, Gemini 3.5 Flash हे स्वायत्त संगणक कार्यांसाठी एक उत्कृष्ट कामगिरी करणारे मॉडेल आहे, जे GPT-5.4 mini पेक्षा सरस आहे.
एंटरप्राइझ सुरक्षा: Google 'adversarial training' आणि संवेदनशील कृतींसाठी अनिवार्य वापरकर्ता संमती यांसारख्या पर्यायी सुरक्षा उपायांद्वारे स्वायत्त एजंट्सच्या जोखमींचे निराकरण करते.

गुगलने जेमिनी ३.५ फ्लॅशमध्ये 'कॉम्प्युटर कंट्रोल'ची सुविधा समाविष्ट केली आहे

Google ने Gemini 3.5 Flash मध्ये 'Computer Control' समाविष्ट केले

चॅटबॉटपासून स्वायत्त एजंटपर्यंत (Autonomous Agent)

कामगिरीचे बेंचमार्किंग: Gemini विरुद्ध इतर मॉडेल्स

स्वायत्त नियंत्रणामध्ये सुरक्षा आणि सुरक्षितता

उपलब्धता आणि अंमलबजावणी

मुख्य मुद्दे

Continue reading

Android 17 लाँच: Google ने Gemini Omni आणि प्रगत मल्टीटास्किंग समाविष्ट केले

Google DeepMind चा नवीन AI नियंत्रण रोडमॅप: एजंट्सना 'इनसाइडर थ्रेट्स' (अंतर्गत धोके) म्हणून हाताळणे

एजंट्सच्या नवीन युगाला सक्षम करण्यासाठी गुगलने जेमिनीला 'Interactions API' कडे वळवले आहे

Google Home Speaker चा प्रत्यक्ष अनुभव: प्रीमियम ऑडिओ आणि Gemini AI चा संगम

Google ने Mac साठी Gemini Spark लाँच केले: Agentic AI चे एक नवीन युग