Gemini 3.5 Flash માં હવે નેટિવ કમ્પ્યુટર યુઝ (Native Computer Use) ની સુવિધા છે

Google એ 24 જૂન, 2026 ના રોજ Gemini 3.5 Flash ને અપડેટ કર્યું છે. તેમાં હવે નેટિવ કમ્પ્યુટર યુઝ સામેલ છે. આનો અર્થ એ છે કે મોડેલ સીધી રીતે સ્ક્રીન સાથે સંપર્ક કરી શકે છે.

આ અપડેટ પહેલા, ડેવલપર્સ પાસે વિકલ્પ હતો. તમારે સ્ક્રીન કંટ્રોલ માટે અલગ મોડેલનો ઉપયોગ કરવો પડતો અથવા વિવિધ મોડેલો વચ્ચે જટિલ પાઇપલાઇન્સ બનાવવી પડતી. આનાથી ખર્ચ અને એન્જિનિયરિંગનું કામ વધી જતું હતું.

હવે, કમ્પ્યુટર યુઝ એક સ્ટાન્ડર્ડ ટૂલ છે. તમે તેને એક જ સ્ટેપમાં Search અને Maps ની સાથે કોલ કરી શકો છો.

તમારા માટે શું બદલાશે:

  • સિંગલ ઇન્ફરન્સ પાસ (Single inference pass): એક જ એજન્ટ મોડેલ બદલ્યા વિના વેબ બ્રાઉઝ કરી શકે છે, એન્ટરપ્રાઇઝ એપ્સનો ઉપયોગ કરી શકે છે અને Maps ચેક કરી શકે છે.
  • મોટું કોન્ટેક્સ્ટ (Larger context): વિન્ડો 128K થી વધીને 1 મિલિયન ટોકન્સ થઈ ગઈ છે. આ લાંબા કાર્યોમાં મદદ કરે છે.
  • બહેતર રીઝનિંગ (Better reasoning): હવે દરેક એક્શનમાં એક ઇન્ટેન્ટ ફીલ્ડ (intent field) સામેલ છે. તે સમજાવે છે કે મોડેલે શા માટે ક્લિક કર્યું અથવા ટાઇપ કર્યું. આનાથી પાલન (compliance) માટે ઓડિટ ટ્રેઇલ તૈયાર થાય છે.
  • ઓછો ખર્ચ: Gemini 3.5 Flash ની કિંમત પ્રતિ મિલિયન ઇનપુટ ટોકન્સ દીઠ $1.50 છે. GPT-5.5 ની કિંમત $5.00 છે. સ્કેલિંગ માટે Gemini ઘણું સસ્તું છે.

તે કેવી રીતે કામ કરે છે:

  • તમારી એપ સ્ક્રીનશોટ લે છે.
  • API ઈમેજ અને તમારો લક્ષ્ય (goal) મેળવે છે.
  • મોડેલ એક UI એલિમેન્ટ પસંદ કરે છે અને ક્લિક અથવા સ્ક્રોલ જેવી કમાન્ડ પરત કરે છે.
  • તમારી એપ કમાન્ડ એક્ઝિક્યુટ કરે છે અને પ્રક્રિયાનું પુનરાવર્તન કરે છે.

સુરક્ષા એ એક મુખ્ય ચિંતા છે. એક એજન્ટ ઈમેલ મોકલવા અથવા પેમેન્ટ કરવા જેવા અફર (irreversible) કાર્યો કરી શકે છે. Google એ આને મેનેજ કરવા માટે વિવિધ સ્તરો ઉમેર્યા છે:

  • પ્રોમ્પ્ટ ઇન્જેક્શન રોકવા માટે એડવર્સરીયલ ટ્રેનિંગ (Adversarial training).
  • સંવેદનશીલ કાર્યો માટે માનવીય પુષ્ટિ (Human confirmation).
  • નાણાકીય વ્યવહારો જેવા ચોક્કસ કાર્યોને રોકવા માટે સાત સુરક્ષા શ્રેણીઓ.

મોડેલ 20 થી વધુ એક્શન પ્રકારોને સપોર્ટ કરે છે. આમાં બ્રાઉઝર્સ, મોબાઈલ અને ડેસ્કટોપ માટે ક્લિક્સ, ટાઇપિંગ, સ્ક્રોલિંગ અને ડ્રેગિંગનો સમાવેશ થાય છે.

બેન્ચમાર્ક અને વાસ્તવિક ઉપયોગ વચ્ચેનો તફાવત હજુ પણ યથાવત છે. એપ્સ વારંવાર બદલાય છે અને ઓથેન્ટિકેશન ફ્લો જટિલ હોય છે. ફક્ત રીડ-ઓન્લી (read-only) કાર્યોથી શરૂઆત કરો. એકવાર તમે લોગ્સ પર વિશ્વાસ કરી લો, પછી એવા વર્કફ્લો પર જાઓ જેમાં માનવીય મંજૂરીની જરૂર હોય.

કમ્પ્યુટર યુઝ હવે પ્રીમિયમ એડ-ઓનમાંથી એક સ્ટાન્ડર્ડ ટૂલમાં બદલાઈ રહ્યું છે.

સ્ત્રોત: https://dev.to/prabhakar_chaudhary_7afe4/gemini-35-flash-now-has-native-computer-use-heres-what-that-actually-changes-ol0

વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi