ഗൂഗിൾ ജെമിനി 3.5 ഫ്ലാഷിൽ കമ്പ്യൂട്ടർ നിയന്ത്രണ സംവിധാനം ഉൾപ്പെടുത്തി

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialകഴിഞ്ഞ ആഴ്‌ച3min read

ഗൂഗിൾ ജെമിനി 3.5 ഫ്ലാഷിൽ കമ്പ്യൂട്ടർ നിയന്ത്രണ സംവിധാനം ഉൾപ്പെടുത്തി

In this article

Google Gemini 3.5 Flash-ൽ കമ്പ്യൂട്ടർ നിയന്ത്രണം (Computer Control) ഉൾപ്പെടുത്തി

Gemini 3.5 Flash മോഡലിലേക്ക് "Computer Use" ശേഷികൾ നേരിട്ട് സംയോജിപ്പിച്ചുകൊണ്ട് ഏജന്റിക് AI (agentic AI) രംഗത്ത് ഗൂഗിൾ ഒരു സുപ്രധാന നാഴികക്കല്ല് പിന്നിട്ടിരിക്കുകയാണ്. ഈ അപ്‌ഡേറ്റ് വഴി കമ്പ്യൂട്ടർ സ്‌ക്രീനുകൾ, വെബ് ബ്രൗസറുകൾ, മൊബൈൽ ഉപകരണങ്ങൾ എന്നിവ തത്സമയം തിരിച്ചറിയാനും വ്യാഖ്യാനിക്കാനും അവയുമായി സംവദിക്കാനും മോഡലിന് സാധിക്കും. ഇത് വെറും ടെക്സ്റ്റ് അധിഷ്ഠിത ചാറ്റിംഗിന് അപ്പുറം സജീവമായ ഡിജിറ്റൽ പ്രവർത്തനങ്ങളിലേക്ക് (digital execution) മോഡലിനെ എത്തിക്കുന്നു.

ചാറ്റ്‌ബോട്ട് മുതൽ സ്വയംഭരണ ഏജന്റ് (Autonomous Agent) വരെ

മുമ്പ്, കമ്പ്യൂട്ടർ ഇന്റർഫേസ് പ്രവർത്തിപ്പിക്കാനുള്ള കഴിവ് ഒരു പ്രത്യേക Gemini 2.5 മോഡലിൽ മാത്രമായി പരിമിതപ്പെടുത്തിയിരുന്നു, ഇത് തടസ്സമില്ലാത്ത സംയോജനത്തിന് തടസ്സമായിരുന്നു. ഈ ഫങ്ഷണാലിറ്റി നേരിട്ട് Gemini 3.5 Flash-ൽ ഉൾപ്പെടുത്തിയതിലൂടെ, അതീവ കാര്യക്ഷമതയുള്ള മൾട്ടിമോഡൽ ഏജന്റുകളെ (multimodal agents) നിർമ്മിക്കാൻ ഗൂഗിൾ ഡെവലപ്പർമാരെ പ്രാപ്തരാക്കുന്നു. ഫങ്ക്ഷൻ കോളിംഗ് (function calling), Google Search, Maps തുടങ്ങിയ നിലവിലുള്ള കഴിവുകളുമായി ചേരുമ്പോൾ, ഈ ഏജന്റുകൾക്ക് ഡെസ്‌ക്‌ടോപ്പ്, മൊബൈൽ, ബ്രൗസർ എൻവയോൺമെന്റുകൾക്കിടയിലുള്ള സങ്കീർണ്ണമായ പ്രവർത്തനങ്ങൾ (workflows) കൈകാര്യം ചെയ്യാൻ കഴിയും. സോഫ്റ്റ്‌വെയർ ടെസ്റ്റിംഗ്, സങ്കീർണ്ണമായ ഓഫീസ് അഡ്മിനിസ്‌ട്രേഷൻ, ക്രോസ്-പ്ലാറ്റ്‌ഫോം ഡാറ്റാ എൻട്രി തുടങ്ങിയ വലിയ തോതിലുള്ള ഓട്ടോമേഷൻ ജോലികൾക്ക് ഈ മോഡലിനെ ഒരു മികച്ച എഞ്ചിനാക്കുന്നു.

പെർഫോമൻസ് ബെഞ്ച്മാർക്കിംഗ്: Gemini മറ്റ് മോഡലുകളുമായി താരതമ്യം ചെയ്യുമ്പോൾ

ഒരു കമ്പ്യൂട്ടർ സിസ്റ്റം പ്രവർത്തിപ്പിക്കാനുള്ള AI-യുടെ ശേഷി അളക്കുന്ന OSWorld ബെഞ്ച്മാർക്കിൽ ഈ സംയോജനത്തിന്റെ സ്വാധീനം വ്യക്തമായി കാണാം. Gemini 3.5 Flash 78.4 എന്ന മികച്ച സ്കോർ കൈവരിച്ചു, ഇത് മറ്റ് പ്രമുഖ മോഡലുകളെ അപേക്ഷിച്ച് മികച്ച യുക്തിചിന്തയും (reasoning) പ്രവർത്തനക്ഷമതയും പ്രകടിപ്പിക്കുന്നു.

താരതമ്യേന പറഞ്ഞാൽ, Gemini 3.5 Flash, Gemini 3 Flash (65.1), GPT-5.4 mini (72.1) എന്നിവയേക്കാൾ മികച്ച പ്രകടനം കാഴ്ചവെച്ചു. ഇൻഡസ്ട്രി ലീഡറായ Anthropic Opus 4.8 (83.4)-നും GPT-5.5 (78.7)-നും തൊട്ടുപിന്നിലാണെങ്കിലും, Sonnet 4.6 (78.4)-ന് തുല്യമായ പ്രകടനവും Gemini 3.1 Pro (76.2)-നെക്കാൾ മികച്ച പ്രകടനവും ഇത് കാഴ്ചവെക്കുന്നു. വേഗതയും സങ്കീർണ്ണമായ കമ്പ്യൂട്ടർ ഇന്ററാക്ഷനും തമ്മിലുള്ള സന്തുലിതാവസ്ഥ ആഗ്രഹിക്കുന്ന ഡെവലപ്പർമാർക്ക് Gemini 3.5 Flash ഒരു മികച്ച തിരഞ്ഞെടുപ്പാണ്.

സ്വയംഭരണ നിയന്ത്രണത്തിലെ സുരക്ഷയും സുരക്ഷിതത്വവും

ഒരു LLM-ന് ഉപയോക്താവിന്റെ ഇന്റർഫേസ് നിയന്ത്രിക്കാനുള്ള അധികാരം നൽകുന്നത് സുരക്ഷാ ഭീഷണികൾക്ക് കാരണമായേക്കാം, പ്രത്യേകിച്ച് പ്രോംപ്റ്റ് ഇൻജക്ഷൻ (prompt injection) ആക്രമണങ്ങൾ സംബന്ധിച്ച്. ഈ ഭീഷണികൾ കുറയ്ക്കുന്നതിനായി ഗൂഗിൾ കർശനമായ അഡ്വേഴ്സേറിയൽ ട്രെയിനിംഗ് (adversarial training) നടപ്പിലാക്കിയിട്ടുണ്ട് കൂടാതെ രണ്ട് വ്യത്യസ്ത എൻ്റർപ്രൈസ് ഗ്രേഡ് സുരക്ഷാ സംവിധാനങ്ങളും വാഗ്ദാനം ചെയ്യുന്നു.

ഫയലുകൾ ഡിലീറ്റ് ചെയ്യുകയോ സാമ്പത്തിക ഇടപാടുകൾ നടത്തുകയോ പോലുള്ള സെൻസിറ്റീവ് ആയതോ മാറ്റാൻ കഴിയാത്തതോ ആയ കാര്യങ്ങൾ ചെയ്യുന്നതിന് മുമ്പ്, ആദ്യത്തെ സുരക്ഷാ സംവിധാനം ഉപയോക്താവിന്റെ വ്യക്തമായ അനുമതി ആവശ്യപ്പെടുന്നു. രണ്ടാമത്തെ സുരക്ഷാ സംവിധാനം, ഒരു ഇൻഡയറക്ട് പ്രോംപ്റ്റ് ഇൻജക്ഷൻ ശ്രമം സിസ്റ്റം കണ്ടെത്തിയാൽ ഏത് ജോലിയും സ്വയമേവ നിർത്തിവെക്കുന്നു. ഈ ഇൻബിൽറ്റ് ടൂളുകൾക്ക് പുറമെ, ഏജന്റിന്റെ എൻവയോൺമെന്റ് സാൻഡ്‌ബോക്സിംഗ് (sandboxing) ചെയ്യുക, മനുഷ്യന്റെ മേൽനോട്ടം ഉറപ്പാക്കുക, കർശനമായ ആക്സസ് നിയന്ത്രണങ്ങൾ നടപ്പിലാക്കുക തുടങ്ങിയ "defense-in-depth" തന്ത്രം സ്വീകരിക്കാൻ ഗൂഗിൾ ഡെവലപ്പർമാരോട് ശക്തമായി നിർദ്ദേശിക്കുന്നു.

ലഭ്യതയും നടപ്പിലാക്കലും

ഈ കഴിവുകൾ ഉപയോഗപ്പെടുത്താൻ ആഗ്രഹിക്കുന്ന ഡെവലപ്പർമാർക്ക് Gemini API, Gemini Enterprise Agent Platform എന്നിവയിലൂടെ ഇവ ഉടൻ തന്നെ ലഭ്യമാണ്. നിർമ്മാണ പ്രക്രിയ വേഗത്തിലാക്കുന്നതിനായി, ഗൂഗിൾ ഒരു GitHub റഫറൻസ് ഇംപ്ലിമെന്റേഷനും ഒരു Browserbase ഡെമോയും നൽകിയിട്ടുണ്ട്. നിലവിലുള്ള സോഫ്റ്റ്‌വെയർ ഇക്കോസിസ്റ്റങ്ങളിൽ സ്വയംഭരണ കമ്പ്യൂട്ടർ നിയന്ത്രണം സംയോജിപ്പിക്കുന്നതിനുള്ള വ്യക്തമായ മാർഗ്ഗരേഖ ഇത് നൽകുന്നു.

പ്രധാന കാര്യങ്ങൾ

നേരിട്ടുള്ള സംയോജനം: കമ്പ്യൂട്ടർ നിയന്ത്രണം ഇപ്പോൾ Gemini 3.5 Flash-ൽ നേരിട്ട് ഉൾപ്പെടുത്തിയിരിക്കുന്നു, ഇത് സ്‌ക്രീനുകളും ബ്രൗസറുകളും തമ്മിലുള്ള തടസ്സമില്ലാത്ത മൾട്ടിമോഡൽ സംവേദനം സാധ്യമാക്കുന്നു.
ഉയർന്ന ബെഞ്ച്മാർക്കുകൾ: 78.4 എന്ന OSWorld സ്കോറോടെ, Gemini 3.5 Flash സ്വയംഭരണ കമ്പ്യൂട്ടർ ജോലികൾക്കായി മികച്ച പ്രകടനം കാഴ്ചവെക്കുന്ന ഒരു മോഡലാണ്, ഇത് GPT-5.4 mini-യെക്കാൾ മികച്ചതാണ്.
എൻ്റർപ്രൈസ് സുരക്ഷ: അഡ്വേഴ്സേറിയൽ ട്രെയിനിംഗിലൂടെയും സെൻസിറ്റീവ് ആയ കാര്യങ്ങൾക്കായി നിർബന്ധിത ഉപയോക്തൃ സ്ഥിരീകരണം പോലുള്ള സുരക്ഷാ സംവിധാനങ്ങളിലൂടെയും സ്വയംഭരണ ഏജന്റുകളുടെ അപകടസാധ്യതകൾ ഗൂഗിൾ പരിഹരിക്കുന്നു.

ഗൂഗിൾ ജെമിനി 3.5 ഫ്ലാഷിൽ കമ്പ്യൂട്ടർ നിയന്ത്രണ സംവിധാനം ഉൾപ്പെടുത്തി

Google Gemini 3.5 Flash-ൽ കമ്പ്യൂട്ടർ നിയന്ത്രണം (Computer Control) ഉൾപ്പെടുത്തി

ചാറ്റ്‌ബോട്ട് മുതൽ സ്വയംഭരണ ഏജന്റ് (Autonomous Agent) വരെ

പെർഫോമൻസ് ബെഞ്ച്മാർക്കിംഗ്: Gemini മറ്റ് മോഡലുകളുമായി താരതമ്യം ചെയ്യുമ്പോൾ

സ്വയംഭരണ നിയന്ത്രണത്തിലെ സുരക്ഷയും സുരക്ഷിതത്വവും

ലഭ്യതയും നടപ്പിലാക്കലും

പ്രധാന കാര്യങ്ങൾ

Continue reading

ഗൂഗിൾ ഡീപ്‌മൈൻഡിന്റെ പുതിയ AI നിയന്ത്രണ റോഡ്മാപ്പ്: ഏജന്റുകളെ ഇൻസൈഡർ ഭീഷണികളായി പരിഗണിക്കുന്നു

ഏജന്റുകളുടെ പുതിയ യുഗത്തിന് കരുത്ത് പകരാൻ ഗൂഗിൾ ജെമിനിയെ ഇന്ററാക്ഷൻസ് എപിഐയിലേക്ക് (Interactions API) മാറ്റുന്നു

Google Makes Interactions API The Default Way to Build with Gemini Agents

Gemini Interactions API: ഒരു സമ്പൂർണ്ണ മൈഗ്രേഷൻ ഗൈഡ്

Gemini 3.5 Flash-ന് ഇനി നേരിട്ട് കമ്പ്യൂട്ടർ ഉപയോഗിക്കാനുള്ള ശേഷിയുണ്ട്