Gemini 3.5 Flash मध्ये आता नेटिव्ह कॉम्प्युटर युज (Native Computer Use) सुविधा उपलब्ध आहे

Google ने २४ जून, २०२६ रोजी Gemini 3.5 Flash अपडेट केले आहे. यामध्ये आता नेटिव्ह कॉम्प्युटर युज समाविष्ट आहे. याचा अर्थ असा की हे मॉडेल थेट स्क्रीनसोबत संवाद साधू शकते.

या अपडेटपूर्वी, डेव्हलपर्ससमोर एक निवड होती. स्क्रीन नियंत्रणासाठी तुम्हाला वेगळे मॉडेल वापरावे लागायचे किंवा वेगवेगळ्या मॉडेल्समध्ये गुंतागुंतीचे पाइपलाइन्स तयार करावे लागायचे. यामुळे खर्च आणि इंजिनिअरिंगचे काम वाढायचे.

आता, कॉम्प्युटर युज हे एक स्टँडर्ड टूल आहे. तुम्ही एकाच टप्प्यात Search आणि Maps सोबत याचा वापर करू शकता.

तुमच्यासाठी काय बदलेल:

  • सिंगल इन्फरन्स पास (Single inference pass): एक एजंट मॉडेल न बदलता वेब ब्राउझ करू शकतो, एंटरप्राइझ ॲप्स वापरू शकतो आणि Maps तपासू शकतो.
  • मोठा कॉन्टेक्स्ट (Larger context): कॉन्टेक्स्ट विंडो १२८K वरून १ दशलक्ष (1 million) टोकन्सपर्यंत वाढली आहे. यामुळे लांब कामांमध्ये मदत होते.
  • उत्तम रिझनिंग (Better reasoning): आता प्रत्येक कृतीमध्ये एक 'इंटेंट फील्ड' (intent field) समाविष्ट आहे. मॉडेलने क्लिक किंवा टाईप का केले, याचे स्पष्टीकरण ते देते. यामुळे कंप्लायन्ससाठी ऑडिट ट्रेल तयार होतो.
  • कमी खर्च: Gemini 3.5 Flash ची किंमत प्रति दशलक्ष इनपुट टोकन्स $१.५० आहे. GPT-5.5 ची किंमत $५.०० आहे. स्केलिंगसाठी Gemini खूप स्वस्त आहे.

हे कसे कार्य करते:

  • तुमचे ॲप स्क्रीनशॉट घेते.
  • API इमेज आणि तुमचे ध्येय (goal) प्राप्त करते.
  • मॉडेल एक UI एलिमेंट निवडते आणि क्लिक किंवा स्क्रोल सारखी कमांड परत करते.
  • तुमचे ॲप ती कमांड कार्यान्वित करते आणि ही प्रक्रिया पुन्हा पुन्हा करते.

सुरक्षितता ही एक मोठी चिंता आहे. एखादा एजंट ईमेल पाठवणे किंवा पेमेंट करणे यांसारख्या अपरिवर्तनीय (irreversible) कृती करू शकतो. Google ने हे व्यवस्थापित करण्यासाठी विविध स्तर जोडले आहेत:

  • प्रॉम्प्ट इंजेक्शन रोखण्यासाठी ॲडव्हर्सरिअल ट्रेनिंग (Adversarial training).
  • संवेदनशील कृतींसाठी मानवी पुष्टीकरण (Human confirmation).
  • आर्थिक व्यवहारांसारखी विशिष्ट कामे रोखण्यासाठी सात सुरक्षा श्रेणी (safety categories).

हे मॉडेल २० पेक्षा जास्त ॲक्शन प्रकारांना सपोर्ट करते. यामध्ये ब्राउझर, मोबाईल आणि डेस्कटॉपसाठी क्लिक, टायपिंग, स्क्रोलिंग आणि ड्रॅगिंगचा समावेश आहे.

बेंचमार्क आणि वास्तविक जगातील वापरामध्ये अजूनही अंतर आहे. ॲप्स वारंवार बदलतात आणि ऑथेंटिकेशन फ्लो (authentication flows) गुंतागुंतीचे असतात. फक्त 'रीड-ओन्ली' (read-only) कामांपासून सुरुवात करा. एकदा का तुम्हाला लॉग्सवर विश्वास बसला की, मानवी मंजुरी आवश्यक असलेल्या वर्कफ्लोकडे वळा.

कॉम्प्युटर युज आता प्रीमियम ॲड-ऑनमधून एका स्टँडर्ड टूलमध्ये रूपांतरित होत आहे.

Source: https://dev.to/prabhakar_chaudhary_7afe4/gemini-35-flash-now-has-native-computer-use-heres-what-that-actually-changes-ol0

Optional learning community: https://t.me/GyaanSetuAi