Google Integrates Computer Control into Gemini 3.5 Flash

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialગયા અઠવાડિયે3min read

Google Integrates Computer Control into Gemini 3.5 Flash

In this article

Google Gemini 3.5 Flash માં કમ્પ્યુટર કંટ્રોલને સંકલિત કરે છે

Google એ Gemini 3.5 Flash મોડેલમાં સીધી રીતે "Computer Use" ક્ષમતાઓનું સંકલન કરીને એજન્ટિક AI (agentic AI) માં એક મહત્વપૂર્ણ સીમાચિહ્ન હાંસલ કર્યું છે. આ અપડેટ મોડેલને કમ્પ્યુટર સ્ક્રીન, વેબ બ્રાઉઝર અને મોબાઈલ ઉપકરણો સાથે રીઅલ-ટાઇમમાં જોવામાં, સમજવામાં અને વાતચીત કરવામાં સક્ષમ બનાવે છે, જે ટેક્સ્ટ-આધારિત ચેટથી આગળ વધીને સક્રિય ડિજિટલ અમલીકરણ તરફ લઈ જાય છે.

ચેટબોટથી સ્વાયત્ત એજન્ટ (Autonomous Agent) સુધી

અગાઉ, કમ્પ્યુટર ઇન્ટરફેસ ચલાવવાની ક્ષમતા અલગ Gemini 2.5 મોડેલ પૂરતી મર્યાદિત હતી, જે સીમલેસ સંકલનમાં અવરોધ ઊભો કરતી હતી. આ કાર્યક્ષમતાને સીધી Gemini 3.5 Flash માં સામેલ કરીને, Google ડેવલપર્સને અત્યંત કાર્યક્ષમ, મલ્ટિમોડલ એજન્ટ્સ બનાવવામાં સક્ષમ બનાવી રહ્યું છે. ફંક્શન કોલિંગ (function calling), Google Search અને Maps જેવી હાલની ક્ષમતાઓ સાથે સંયોજિત થતા, આ એજન્ટ્સ ડેસ્કટોપ, મોબાઈલ અને બ્રાઉઝર એન્વાયરમેન્ટમાં જટિલ વર્કફ્લોને નેવિગેટ કરી શકે છે. આ મોડેલને ઓટોમેટેડ સોફ્ટવેર ટેસ્ટિંગ, જટિલ ઓફિસ એડમિનિસ્ટ્રેશન અને ક્રોસ-પ્લેટફોર્મ ડેટા એન્ટ્રી જેવા ઉચ્ચ-સ્તરના ઓટોમેશન કાર્યો માટે એક આદર્શ એન્જિન બનાવે છે.

પરફોર્મન્સ બેન્ચમાર્કિંગ: Gemini વિરુદ્ધ અન્ય મોડેલ્સ

આ સંકલનનો પ્રભાવ OSWorld બેન્ચમાર્ક માં સૌથી વધુ સ્પષ્ટ છે, જે કમ્પ્યુટર સિસ્ટમ ચલાવવાની AI ની ક્ષમતાને માપે છે. Gemini 3.5 Flash એ 78.4 નો પ્રભાવશાળી સ્કોર મેળવ્યો છે, જે ઉદ્યોગના ઘણા અન્ય મોડેલ્સની સરખામણીમાં શ્રેષ્ઠ તર્ક અને અમલીકરણ દર્શાવે છે.

સંદર્ભ માટે, Gemini 3.5 Flash એ Gemini 3 Flash (65.1) અને GPT-5.4 mini (72.1) કરતા વધુ સારું પ્રદર્શન કર્યું છે. જોકે તે ઉદ્યોગના લીડર Anthropic Opus 4.8 (83.4) અને GPT-5.5 (78.7) ના નજીકના સ્કોરથી થોડું પાછળ છે, તેમ છતાં તે અત્યંત સ્પર્ધાત્મક છે, જે Sonnet 4.6 (78.4) ના પ્રદર્શન સાથે મેળ ખાય છે અને Gemini 3.1 Pro (76.2) ને પાછળ છોડે છે. આ સ્પર્ધાત્મક સ્થિતિ Gemini 3.5 Flash ને ઝડપ અને અત્યાધુનિક કમ્પ્યુટર ઇન્ટરેક્શન વચ્ચે સંતુલન શોધતા ડેવલપર્સ માટે ટોપ-ટિયર પસંદગી તરીકે દર્શાવે છે.

સ્વાયત્ત નિયંત્રણમાં સુરક્ષા અને સલામતી

LLM ને યુઝરના ઇન્ટરફેસ પર નિયંત્રણ આપવાથી નોંધપાત્ર સુરક્ષા જોખમો ઊભા થાય છે, ખાસ કરીને પ્રોમ્પ્ટ ઇન્જેક્શન (prompt injection) હુમલાઓ અંગે. આ જોખમોને ઘટાડવા માટે, Google એ કડક એડવર્સરીયલ ટ્રેનિંગ (adversarial training) લાગુ કરી છે અને બે અલગ એન્ટરપ્રાઇઝ-ગ્રેડ સુરક્ષા ઉપાયો પ્રદાન કરે છે.

પ્રથમ સુરક્ષા ઉપાયમાં મોડેલ ફાઇલો ડિલીટ કરવા અથવા નાણાકીય વ્યવહારો કરવા જેવા સંવેદનશીલ અથવા અફર કાર્યો કરવા માટે યુઝરની સ્પષ્ટ સંમતિ લેવી જરૂરી છે. બીજો સુરક્ષા ઉપાય જો સિસ્ટમ પરોક્ષ પ્રોમ્પ્ટ ઇન્જેક્શનનો પ્રયાસ શોધી કાઢે તો કોઈપણ કાર્યને આપમેળે અટકાવી દે છે. આ ઇન-બિલ્ટ સાધનો ઉપરાંત, Google ડેવલપર્સને "defense-in-depth" વ્યૂહરચના અપનાવવાની ભારપૂર્વક સલાહ આપે છે, જેમાં એજન્ટના એન્વાયરમેન્ટને સેન્ડબોક્સિંગ કરવું, માનવીય દેખરેખ રાખવી અને કડક એક્સેસ કંટ્રોલ લાગુ કરવાનો સમાવેશ થાય છે.

ઉપલબ્ધતા અને અમલીકરણ

આ ક્ષમતાઓનો લાભ લેવા માંગતા ડેવલપર્સ Gemini API અને Gemini Enterprise Agent Platform દ્વારા તરત જ તેનો ઉપયોગ કરી શકે છે. નિર્માણ પ્રક્રિયાને ઝડપી બનાવવા માટે, Google એ GitHub રેફરન્સ ઇમ્પ્લીમેન્ટેશન અને Browserbase ડેમો આપ્યો છે, જે હાલના સોફ્ટવેર ઇકોસિસ્ટમમાં સ્વાયત્ત કમ્પ્યુટર કંટ્રોલને સંકલિત કરવા માટે સ્પષ્ટ રોડમેપ પૂરો પાડે છે.

મુખ્ય મુદ્દાઓ

સીધું સંકલન: કમ્પ્યુટર કંટ્રોલ હવે Gemini 3.5 Flash માં મૂળભૂત રીતે સમાવિષ્ટ છે, જે સ્ક્રીન અને બ્રાઉઝર સાથે સીમલેસ મલ્ટિમોડલ ઇન્ટરેક્શનને સક્ષમ બનાવે છે.
ઉચ્ચ બેન્ચમાર્ક: 78.4 ના OSWorld સ્કોર સાથે, Gemini 3.5 Flash એ સ્વાયત્ત કમ્પ્યુટર કાર્યો માટે ટોપ-પરફોર્મિંગ મોડેલ છે, જે GPT-5.4 mini કરતા વધુ સારું પ્રદર્શન કરે છે.
એન્ટરપ્રાઇઝ સુરક્ષા: Google એડવર્સરીયલ ટ્રેનિંગ અને સંવેદનશીલ કાર્યો માટે ફરજિયાત યુઝર કન્ફર્મેશન જેવા વૈકલ્પિક સુરક્ષા ઉપાયો દ્વારા સ્વાયત્ત એજન્ટોના જોખમોનું નિવારણ કરે છે.

Google Integrates Computer Control into Gemini 3.5 Flash

Google Gemini 3.5 Flash માં કમ્પ્યુટર કંટ્રોલને સંકલિત કરે છે

ચેટબોટથી સ્વાયત્ત એજન્ટ (Autonomous Agent) સુધી

પરફોર્મન્સ બેન્ચમાર્કિંગ: Gemini વિરુદ્ધ અન્ય મોડેલ્સ

સ્વાયત્ત નિયંત્રણમાં સુરક્ષા અને સલામતી

ઉપલબ્ધતા અને અમલીકરણ

મુખ્ય મુદ્દાઓ

Continue reading

Android 17 લોન્ચ: Google Gemini Omni અને એડવાન્સ્ડ મલ્ટીટાસ્કિંગને સંકલિત કરે છે

Google DeepMind નો નવો AI નિયંત્રણ રોડમેપ: એજન્ટ્સને ઇનસાઇડર થ્રેટ્સ તરીકે ગણવા

એજન્ટ્સના નવા યુગને સશક્ત બનાવવા માટે Google Gemini ને Interactions API પર સ્થાનાંતરિત કરી રહ્યું છે

Google Home Speaker Hands On: Premium Audio Meets Gemini AI

Google એ Mac માટે Gemini Spark લોન્ચ કર્યું: Agentic AI નો એક નવો યુગ