Gemini 3.5 Flash में अब नेटिव कंप्यूटर यूज़ (Native Computer Use) उपलब्ध है

Google ने 24 जून, 2026 को Gemini 3.5 Flash को अपडेट किया। इसमें अब नेटिव कंप्यूटर यूज़ शामिल है। इसका मतलब है कि मॉडल सीधे स्क्रीन के साथ इंटरैक्ट कर सकता है।

इस अपडेट से पहले, डेवलपर्स के पास एक विकल्प होता था। आपको स्क्रीन कंट्रोल के लिए एक अलग मॉडल का उपयोग करना पड़ता था या विभिन्न मॉडलों के बीच जटिल पाइपलाइन बनानी पड़ती थी। इससे लागत और इंजीनियरिंग का काम बढ़ जाता था।

अब, कंप्यूटर यूज़ एक स्टैंडर्ड टूल है। आप इसे एक ही स्टेप में Search और Maps के साथ कॉल कर सकते हैं।

आपके लिए क्या बदलता है:

  • सिंगल इन्फरेंस पास (Single inference pass): एक ही एजेंट बिना मॉडल बदले वेब ब्राउज़ कर सकता है, एंटरप्राइज ऐप्स का उपयोग कर सकता है और Maps चेक कर सकता है।
  • बड़ा कॉन्टेक्स्ट (Larger context): विंडो 128K से बढ़कर 1 मिलियन टोकन हो गई है। यह लंबे कार्यों में मदद करता है।
  • बेहतर रीजनिंग (Better reasoning): अब हर एक्शन में एक 'इंटेंट फील्ड' (intent field) शामिल होता है। यह बताता है कि मॉडल ने क्लिक या टाइप क्यों किया। यह अनुपालन (compliance) के लिए एक ऑडिट ट्रेल बनाता है।
  • कम लागत: Gemini 3.5 Flash की लागत प्रति मिलियन इनपुट टोकन $1.50 है। GPT-5.5 की लागत $5.00 है। स्केलिंग के लिए Gemini बहुत सस्ता है।

यह कैसे काम करता है:

  • आपका ऐप एक स्क्रीनशॉट लेता है।
  • API इमेज और आपके लक्ष्य को प्राप्त करता है।
  • मॉडल एक UI एलिमेंट चुनता है और क्लिक या स्क्रॉल जैसा कमांड वापस करता है।
  • आपका ऐप कमांड को निष्पादित (execute) करता है और प्रक्रिया को दोहराता है।

सुरक्षा एक बड़ी चिंता है। एक एजेंट ईमेल भेजने या भुगतान करने जैसे अपरिवर्तनीय (irreversible) कार्य कर सकता है। Google ने इसे प्रबंधित करने के लिए कई परतें जोड़ी हैं:

  • प्रॉम्प्ट इंजेक्शन (prompt injection) को रोकने के लिए एडवर्सरियल ट्रेनिंग (Adversarial training)।
  • संवेदनशील कार्यों के लिए मानवीय पुष्टि (Human confirmation)।
  • वित्तीय लेनदेन जैसे विशिष्ट कार्यों को ब्लॉक करने के लिए सात सुरक्षा श्रेणियां।

मॉडल 20 से अधिक एक्शन प्रकारों का समर्थन करता है। इसमें ब्राउज़र, मोबाइल और डेस्कटॉप के लिए क्लिक, टाइपिंग, स्क्रॉलिंग और ड्रैगिंग शामिल हैं।

बेंचमार्क और वास्तविक दुनिया के उपयोग के बीच अंतर बना हुआ है। ऐप्स अक्सर बदलते रहते हैं और ऑथेंटिकेशन फ्लो (authentication flows) जटिल होते हैं। केवल 'रीड-ओनली' (read-only) कार्यों से शुरुआत करें। एक बार जब आप लॉग्स पर भरोसा करने लगें, तो उन वर्कफ़्लो पर जाएँ जिनमें मानवीय अनुमोदन (human approval) की आवश्यकता होती है।

कंप्यूटर यूज़ एक प्रीमियम ऐड-ऑन से बदलकर एक स्टैंडर्ड टूल बनता जा रहा है।

स्रोत: https://dev.to/prabhakar_chaudhary_7afe4/gemini-35-flash-now-has-native-computer-use-heres-what-that-actually-changes-ol0

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi