Gemini 3.5 Flash-ന് ഇപ്പോൾ നേറ്റീവ് കമ്പ്യൂട്ടർ യൂസ് (Native Computer Use) സൗകര്യമുണ്ട്

Google 2026 ജൂൺ 24-ന് Gemini 3.5 Flash അപ്‌ഡേറ്റ് ചെയ്തു. ഇതിൽ ഇപ്പോൾ നേറ്റീവ് കമ്പ്യൂട്ടർ യൂസ് ഉൾപ്പെടുന്നു. അതായത്, ഈ മോഡലിന് സ്ക്രീനുകളുമായി നേരിട്ട് സംവദിക്കാൻ കഴിയും.

ഈ അപ്‌ഡേറ്റിന് മുമ്പ്, ഡെവലപ്പർമാർക്ക് ഒരു തിരഞ്ഞെടുപ്പ് ഉണ്ടായിരുന്നു. സ്ക്രീൻ നിയന്ത്രിക്കുന്നതിനായി ഒരു പ്രത്യേക മോഡൽ ഉപയോഗിക്കുകയോ അല്ലെങ്കിൽ വിവിധ മോഡലുകൾക്കിടയിൽ സങ്കീർണ്ണമായ പൈപ്പ്‌ലൈനുകൾ നിർമ്മിക്കുകയോ ചെയ്യേണ്ടി വരുമായിരുന്നു. ഇത് ചിലവും എഞ്ചിനീയറിംഗ് ജോലിയും വർദ്ധിപ്പിച്ചു.

ഇപ്പോൾ, കമ്പ്യൂട്ടർ യൂസ് എന്നത് ഒരു സ്റ്റാൻഡേർഡ് ടൂൾ ആണ്. Search, Maps എന്നിവയ്‌ക്കൊപ്പം ഒറ്റ ഘട്ടത്തിൽ തന്നെ നിങ്ങൾക്ക് ഇത് ഉപയോഗിക്കാം.

നിങ്ങൾക്ക് എന്ത് മാറ്റങ്ങളാണ് ഉണ്ടാകുന്നത്:

  • സിംഗിൾ ഇൻഫറൻസ് പാസ് (Single inference pass): മോഡലുകൾ മാറാതെ തന്നെ ഒരു ഏജന്റിന് വെബ് ബ്രൗസ് ചെയ്യാനും എന്റർപ്രൈസ് ആപ്പുകൾ ഉപയോഗിക്കാനും Maps പരിശോധിക്കാനും കഴിയും.
  • വലിയ കോൺടെക്സ്റ്റ് (Larger context): കോൺടെക്സ്റ്റ് വിൻഡോ 128K-ൽ നിന്ന് 1 മില്യൺ ടോക്കണുകളായി വർദ്ധിച്ചു. ഇത് ദൈർഘ്യമേറിയ ജോലികൾക്ക് സഹായിക്കുന്നു.
  • മെച്ചപ്പെട്ട റീസണിംഗ് (Better reasoning): ഓരോ ആക്ഷനും ഇപ്പോൾ ഒരു ഇൻ്റെന്റ് ഫീൽഡ് (intent field) ഉൾക്കൊള്ളുന്നു. മോഡൽ എന്തുകൊണ്ടാണ് ക്ലിക്ക് ചെയ്തതെന്നോ ടൈപ്പ് ചെയ്തതെന്നോ ഇത് വിശദീകരിക്കുന്നു. ഇത് കംപ്ലയൻസിനായി ഒരു ഓഡിറ്റ് ട്രയൽ (audit trail) സൃഷ്ടിക്കുന്നു.
  • കുറഞ്ഞ ചിലവ്: Gemini 3.5 Flash-ന് ഒരു മില്യൺ ഇൻപുട്ട് ടോക്കണുകൾക്ക് $1.50 ആണ് ചിലവ്. GPT-5.5-ന് $5.00 ആണ്. സ്കെയിലിംഗിന് (scaling) Gemini വളരെ ലാഭകരമാണ്.

ഇത് എങ്ങനെ പ്രവർത്തിക്കുന്നു:

  • നിങ്ങളുടെ ആപ്പ് ഒരു സ്ക്രീൻഷോട്ട് എടുക്കുന്നു.
  • API ചിത്രവും നിങ്ങളുടെ ലക്ഷ്യവും സ്വീകരിക്കുന്നു.
  • മോഡൽ ഒരു UI എലമെന്റ് തിരഞ്ഞെടുക്കുകയും ക്ലിക്ക് അല്ലെങ്കിൽ സ്ക്രോൾ പോലുള്ള ഒരു കമാൻഡ് നൽകുകയും ചെയ്യുന്നു.
  • നിങ്ങളുടെ ആപ്പ് ആ കമാൻഡ് നടപ്പിലാക്കുകയും പ്രക്രിയ ആവർത്തിക്കുകയും ചെയ്യുന്നു.

സുരക്ഷ എന്നത് ഒരു പ്രധാന ആശങ്കയാണ്. ഇമെയിലുകൾ അയക്കുകയോ പേയ്‌മെന്റുകൾ നടത്തുകയോ പോലുള്ള മാറ്റം വരുത്താൻ കഴിയാത്ത (irreversible) പ്രവൃത്തികൾ ഒരു ഏജന്റിന് ചെയ്യാൻ കഴിയും. ഇത് നിയന്ത്രിക്കുന്നതിനായി Google ചില സുരക്ഷാ പാളികൾ ചേർത്തിട്ടുണ്ട്:

  • പ്രോംപ്റ്റ് ഇൻജക്ഷൻ തടയാൻ അഡ്വേഴ്സേറിയൽ ട്രെയിനിംഗ് (Adversarial training).
  • സെൻസിറ്റീവ് ആയ പ്രവൃത്തികൾക്കായി മനുഷ്യന്റെ സ്ഥിരീകരണം (Human confirmation).
  • സാമ്പത്തിക ഇടപാടുകൾ പോലുള്ള പ്രത്യേക ജോലികൾ തടയാൻ ഏഴ് സുരക്ഷാ വിഭാഗങ്ങൾ.

ഈ മോഡൽ 20-ലധികം ആക്ഷൻ തരങ്ങളെ പിന്തുണയ്ക്കുന്നു. ബ്രൗസറുകൾ, മൊബൈൽ, ഡെസ്ക്ടോപ്പ് എന്നിവയ്ക്കായി ക്ലിക്ക് ചെയ്യുക, ടൈപ്പ് ചെയ്യുക, സ്ക്രോൾ ചെയ്യുക, ഡ്രാഗ് ചെയ്യുക എന്നിവ ഇതിൽ ഉൾപ്പെടുന്നു.

ബെഞ്ച്മാർക്കുകളും യഥാർത്ഥ ലോക ഉപയോഗവും തമ്മിലുള്ള വ്യത്യാസം ഇപ്പോഴുമുണ്ട്. ആപ്പുകൾ പലപ്പോഴും മാറിക്കൊണ്ടിരിക്കുന്നു, കൂടാതെ ഓതന്റിക്കേഷൻ പ്രക്രിയകൾ സങ്കീർണ്ണവുമാണ്. അതിനാൽ 'റീഡ്-ഒൺലി' (read-only) ജോലികളിൽ നിന്ന് തുടങ്ങുക. ലോഗുകൾ വിശ്വസിക്കാൻ പാകമായ ശേഷം, മനുഷ്യന്റെ അനുമതി ആവശ്യമുള്ള വർക്ക്ഫ്ലോകളിലേക്ക് മാറാം.

കമ്പ്യൂട്ടർ യൂസ് എന്നത് ഒരു പ്രീമിയം അഡാപ്പണിൽ (premium add-on) നിന്ന് ഒരു സ്റ്റാൻഡേർഡ് ടൂളായി മാറിക്കൊണ്ടിരിക്കുകയാണ്.

Source: https://dev.to/prabhakar_chaudhary_7afe4/gemini-35-flash-now-has-native-computer-use-heres-what-that-actually-changes-ol0

Optional learning community: https://t.me/GyaanSetuAi