Google Integrates Computer Control into Gemini 3.5 Flash

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

GyaanSetu Editorialपिछला सप्ताह3मिनट पढ़ें

Google Integrates Computer Control into Gemini 3.5 Flash

इस लेख में

Google ने Gemini 3.5 Flash में कंप्यूटर कंट्रोल को एकीकृत किया

Google ने Gemini 3.5 Flash मॉडल में सीधे "Computer Use" क्षमताओं को एकीकृत करके एजेंटिक AI के क्षेत्र में एक महत्वपूर्ण उपलब्धि हासिल की है। यह अपडेट मॉडल को कंप्यूटर स्क्रीन, वेब ब्राउज़र और मोबाइल डिवाइस के साथ रीयल-टाइम में देखने, समझने और इंटरैक्ट करने की अनुमति देता है, जिससे यह टेक्स्ट-आधारित चैट से आगे बढ़कर सक्रिय डिजिटल निष्पादन (digital execution) की ओर बढ़ जाता है।

चैटबॉट से स्वायत्त एजेंट तक

पहले, कंप्यूटर इंटरफ़ेस को संचालित करने की क्षमता एक अलग Gemini 2.5 मॉडल तक सीमित थी, जिससे निर्बाध एकीकरण में बाधा आती थी। इस कार्यक्षमता को सीधे Gemini 3.5 Flash में शामिल करके, Google डेवलपर्स को अत्यधिक कुशल, मल्टीमॉडल एजेंट बनाने में सक्षम बना रहा है। function calling, Google Search और Maps जैसी मौजूदा क्षमताओं के साथ मिलकर, ये एजेंट डेस्कटॉप, मोबाइल और ब्राउज़र वातावरण में जटिल वर्कफ़्लो को नेविगेट कर सकते हैं। यह मॉडल को उच्च-स्तरीय ऑटोमेशन कार्यों, जैसे कि स्वचालित सॉफ़्टवेयर टेस्टिंग, जटिल ऑफिस एडमिनिस्ट्रेशन और क्रॉस-प्लेटफ़ॉर्म डेटा एंट्री के लिए एक आदर्श इंजन बनाता है।

प्रदर्शन का बेंचमार्किंग: Gemini बनाम अन्य

इस एकीकरण का प्रभाव OSWorld बेंचमार्क में सबसे स्पष्ट रूप से दिखाई देता है, जो कंप्यूटर सिस्टम को संचालित करने की AI की क्षमता को मापता है। Gemini 3.5 Flash ने 78.4 का प्रभावशाली स्कोर हासिल किया, जो कई उद्योग समकक्षों की तुलना में बेहतर तर्क (reasoning) और निष्पादन का प्रदर्शन करता है।

संदर्भ के लिए, Gemini 3.5 Flash ने Gemini 3 Flash (65.1) और GPT-5.4 mini (72.1) से बेहतर प्रदर्शन किया। हालांकि यह उद्योग जगत के लीडर Anthropic Opus 4.8 (83.4) और GPT-5.5 (78.7) के बहुत मामूली अंतर से थोड़ा पीछे है, फिर भी यह अत्यधिक प्रतिस्पर्धी बना हुआ है, जो Sonnet 4.6 (78.4) के प्रदर्शन के बराबर है और Gemini 3.1 Pro (76.2) को पीछे छोड़ देता है। यह प्रतिस्पर्धी स्थिति Gemini 3.5 Flash को उन डेवलपर्स के लिए एक शीर्ष-स्तरीय विकल्प के रूप में उजागर करती है जो गति और परिष्कृत कंप्यूटर इंटरैक्शन के बीच संतुलन चाहते हैं।

स्वायत्त नियंत्रण में सुरक्षा और सावधानी

किसी LLM को उपयोगकर्ता के इंटरफ़ेस पर नियंत्रण देने से महत्वपूर्ण सुरक्षा जोखिम पैदा होते हैं, विशेष रूप से प्रॉम्प्ट इंजेक्शन (prompt injection) हमलों के संबंध में। इन खतरों को कम करने के लिए, Google ने कठोर एडवर्सरियल ट्रेनिंग (adversarial training) लागू की है और दो अलग-अलग एंटरप्राइज-ग्रेड सुरक्षा उपाय प्रदान करता है।

पहला सुरक्षा उपाय मॉडल द्वारा संवेदनशील या अपरिवर्तनीय कार्य करने से पहले (जैसे फ़ाइलें हटाना या वित्तीय लेनदेन करना) स्पष्ट उपयोगकर्ता पुष्टि की मांग करता है। दूसरा सुरक्षा उपाय किसी भी कार्य को स्वचालित रूप से रोक देता है यदि सिस्टम किसी अप्रत्यक्ष प्रॉम्प्ट इंजेक्शन के प्रयास का पता लगाता है। इन अंतर्निहित उपकरणों के अलावा, Google डेवलपर्स को "defense-in-depth" रणनीति अपनाने की दृढ़ सलाह देता है, जिसमें एजेंट के वातावरण को सैंडबॉक्स करना, मानवीय निगरानी बनाए रखना और सख्त एक्सेस कंट्रोल लागू करना शामिल है।

उपलब्धता और कार्यान्वयन

इन क्षमताओं का लाभ उठाने के इच्छुक डेवलपर्स Gemini API और Gemini Enterprise Agent Platform के माध्यम से तुरंत उन तक पहुँच सकते हैं। निर्माण प्रक्रिया को तेज करने के लिए, Google ने एक GitHub रेफरेंस इम्प्लीमेंटेशन और एक Browserbase डेमो प्रदान किया है, जो मौजूदा सॉफ़्टवेयर इकोसिस्टम में स्वायत्त कंप्यूटर नियंत्रण को एकीकृत करने के लिए एक स्पष्ट रोडमैप प्रदान करता है।

मुख्य बातें

Direct Integration: कंप्यूटर कंट्रोल अब Gemini 3.5 Flash में मूल रूप से अंतर्निहित है, जो स्क्रीन और ब्राउज़र के साथ निर्बाध मल्टीमॉडल इंटरैक्शन को सक्षम बनाता है।
High Benchmarks: 78.4 के OSWorld स्कोर के साथ, Gemini 3.5 Flash स्वायत्त कंप्यूटर कार्यों के लिए एक शीर्ष प्रदर्शन करने वाला मॉडल है, जो GPT-5.4 mini से बेहतर है।
Enterprise Security: Google एडवर्सरियल ट्रेनिंग और संवेदनशील कार्यों के लिए अनिवार्य उपयोगकर्ता पुष्टि जैसे वैकल्पिक सुरक्षा उपायों के माध्यम से स्वायत्त एजेंटों के जोखिमों का समाधान करता है।

Google Integrates Computer Control into Gemini 3.5 Flash

Google ने Gemini 3.5 Flash में कंप्यूटर कंट्रोल को एकीकृत किया

चैटबॉट से स्वायत्त एजेंट तक

प्रदर्शन का बेंचमार्किंग: Gemini बनाम अन्य

स्वायत्त नियंत्रण में सुरक्षा और सावधानी

उपलब्धता और कार्यान्वयन

मुख्य बातें

पढ़ना जारी रखें

Google DeepMind का नया AI नियंत्रण रोडमैप: एजेंटों को आंतरिक खतरों के रूप में देखना

एजेंटों के नए युग को सशक्त बनाने के लिए गूगल ने जेमिनी को Interactions API पर स्थानांतरित किया

गूगल ने Gemini Agents के साथ निर्माण करने के लिए Interactions API को डिफ़ॉल्ट तरीका बना दिया है

Gemini Interactions API: माइग्रेशन का संपूर्ण गाइड

Gemini 3.5 Flash Now Has Native Computer Use