గూగుల్ జెమిని 3.5 ఫ్లాష్‌లో కంప్యూటర్ కంట్రోల్‌ను అనుసంధానిస్తోంది

Translated for your language. Read the original.

AI-assisted draft.

గూగుల్ జెమిని 3.5 ఫ్లాష్‌లో కంప్యూటర్ కంట్రోల్‌ను అనుసంధానిస్తోంది

In this article

Gemini 3.5 Flashలో కంప్యూటర్ కంట్రోల్‌ను Google అనుసంధానిస్తోంది

Gemini 3.5 Flash మోడల్‌లో "Computer Use" సామర్థ్యాలను నేరుగా అనుసంధానించడం ద్వారా Google, ఏజెంటిక్ AI (agentic AI) రంగంలో ఒక ముఖ్యమైన మైలురాయిని చేరుకుంది. ఈ అప్‌డేట్ ద్వారా ఈ మోడల్ కంప్యూటర్ స్క్రీన్‌లు, వెబ్ బ్రౌజర్‌లు మరియు మొబైల్ పరికరాలను రియల్ టైమ్‌లో గమనించడం, అర్థం చేసుకోవడం మరియు వాటితో పరస్పర చర్యలు జరపడం చేయగలదు. ఇది కేవలం టెక్స్ట్ ఆధారిత చాటింగ్‌కే పరిమితం కాకుండా, క్రియాశీల డిజిటల్ అమలు (active digital execution) వైపు అడుగులు వేస్తోంది.

చాట్‌బాట్ నుండి స్వయంప్రతిపత్త ఏజెంట్‌గా (Autonomous Agent)

గతంలో, కంప్యూటర్ ఇంటర్‌ఫేస్‌ను ఆపరేట్ చేసే సామర్థ్యం ప్రత్యేకమైన Gemini 2.5 మోడల్‌కు మాత్రమే పరిమితమై ఉండేది, దీనివల్ల సజావుగా అనుసంధానించడంలో ఇబ్బందులు ఉండేవి. ఈ ఫంక్షనాలిటీని నేరుగా Gemini 3.5 Flashలో చేర్చడం ద్వారా, డెవలపర్లు అత్యంత సమర్థవంతమైన, మల్టీమోడల్ ఏజెంట్‌లను రూపొందించేలా Google అవకాశం కల్పిస్తోంది. ఫంక్షన్ కాలింగ్ (function calling), Google Search మరియు Maps వంటి ఇప్పటికే ఉన్న సామర్థ్యాలతో కలిపి, ఈ ఏజెంట్‌లు డెస్క్‌టాప్, మొబైల్ మరియు బ్రౌజర్ వాతావరణాలలో సంక్లిష్టమైన వర్క్‌ఫ్లోలను నిర్వహించగలవు. ఇది సాఫ్ట్‌వేర్ టెస్టింగ్, సంక్లిష్టమైన ఆఫీస్ అడ్మినిస్ట్రేషన్ మరియు క్రాస్-ప్లాట్‌ఫారమ్ డేటా ఎంట్రీ వంటి భారీ స్థాయి ఆటోమేషన్ పనులకు ఈ మోడల్‌ను ఒక ఆదర్శవంతమైన ఇంజిన్‌గా మారుస్తుంది.

పనితీరు బెంచ్‌మార్కింగ్: Gemini vs. ఇతర మోడల్స్

ఈ అనుసంధానం యొక్క ప్రభావం OSWorld బెంచ్‌మార్క్‌లో స్పష్టంగా కనిపిస్తుంది, ఇది ఒక AI కంప్యూటర్ సిస్టమ్‌ను ఆపరేట్ చేయగల సామర్థ్యాన్ని కొలుస్తుంది. Gemini 3.5 Flash 78.4 అనే అద్భుతమైన స్కోర్‌ను సాధించి, పరిశ్రమలోని అనేక ఇతర మోడల్స్ కంటే మెరుగైన రీజనింగ్ మరియు ఎగ్జిక్యూషన్‌ను ప్రదర్శించింది.

పోలిక కోసం చెప్పాలంటే, Gemini 3.5 Flash, Gemini 3 Flash (65.1) మరియు GPT-5.4 mini (72.1) కంటే మెరుగైన పనితీరును కనబరిచింది. ఇది పరిశ్రమలో అగ్రగామిగా ఉన్న Anthropic Opus 4.8 (83.4) మరియు స్వల్ప తేడాతో ఉన్న GPT-5.5 (78.7) కంటే కొంచెం వెనుక ఉన్నప్పటికీ, Sonnet 4.6 (78.4) పనితీరుతో సమానంగా ఉంటూ మరియు Gemini 3.1 Pro (76.2) కంటే మెరుగ్గా ఉంటూ అత్యంత పోటీతత్వంతో నిలుస్తోంది. వేగం మరియు అధునాతన కంప్యూటర్ ఇంటరాక్షన్ మధ్య సమతుల్యతను కోరుకునే డెవలపర్‌లకు Gemini 3.5 Flash ఒక టాప్-టియర్ ఎంపికగా నిలుస్తుంది.

స్వయంప్రతిపత్త నియంత్రణలో భద్రత మరియు రక్షణ

ఒక LLMకి వినియోగదారు ఇంటర్‌ఫేస్‌పై నియంత్రణ ఇవ్వడం వల్ల ముఖ్యంగా 'ప్రాంప్ట్ ఇంజెక్షన్' (prompt injection) దాడుల వంటి గణనీయమైన భద్రతా ప్రమాదాలు ఏర్పడతాయి. ఈ ముప్పులను తగ్గించడానికి, Google కఠినమైన అడ్వర్సరియల్ ట్రైనింగ్‌ను అమలు చేసింది మరియు రెండు విభిన్న ఎంటర్‌ప్రైజ్-గ్రేడ్ రక్షణ చర్యలను అందిస్తోంది.

మొదటి రక్షణ చర్య ప్రకారం, ఫైల్‌లను తొలగించడం లేదా ఆర్థిక లావాదేవీలు చేయడం వంటి సున్నితమైన లేదా వెనక్కి తీసుకోలేని పనులను మోడల్ చేసే ముందు వినియోగదారు నుండి స్పష్టమైన అనుమతి అవసరం. రెండవ రక్షణ చర్య, సిస్టమ్ ఏదైనా పరోక్ష ప్రాంప్ట్ ఇంజెక్షన్ ప్రయత్నాన్ని గుర్తిస్తే ఆ పనిని స్వయంచాలకంగా నిలిపివేస్తుంది. ఈ అంతర్గత సాధనాలతో పాటు, ఏజెంట్ యొక్క వాతావరణాన్ని సాండ్‌బాక్సింగ్ (sandboxing) చేయడం, మానవ పర్యవేక్షణను కొనసాగించడం మరియు కఠినమైన యాక్సెస్ నియంత్రణలను అమలు చేయడం వంటి "డిఫెన్స్-ఇన్-డెప్త్" (defense-in-depth) వ్యూహాన్ని అనుసరించాలని Google డెవలపర్‌లకు బలంగా సూచిస్తోంది.

లభ్యత మరియు అమలు

ఈ సామర్థ్యాలను ఉపయోగించుకోవాలనుకునే డెవలపర్‌లు Gemini API మరియు Gemini Enterprise Agent Platform ద్వారా వెంటనే వాటిని పొందవచ్చు. బిల్డ్ ప్రక్రియను వేగవంతం చేయడానికి, Google ఒక GitHub రిఫరెన్స్ ఇంప్లిమెంటేషన్ మరియు Browserbase డెమోను అందించింది, ఇది ఇప్పటికే ఉన్న సాఫ్ట్‌వేర్ ఎకోసిస్టమ్‌లలో స్వయంప్రతిపత్త కంప్యూటర్ కంట్రోల్‌ను అనుసంధానించడానికి స్పష్టమైన రోడ్‌మ్యాప్‌ను అందిస్తుంది.

ముఖ్య అంశాలు

నేరుగా అనుసంధానం: కంప్యూటర్ కంట్రోల్ ఇప్పుడు Gemini 3.5 Flashలో నేరుగా అంతర్భాగంగా ఉంది, ఇది స్క్రీన్‌లు మరియు బ్రౌజర్‌లతో సజావుగా మల్టీమోడల్ ఇంటరాక్షన్‌ను సాధ్యం చేస్తుంది.
అధిక బెంచ్‌మార్క్‌లు: 78.4 OSWorld స్కోర్‌తో, Gemini 3.5 Flash స్వయంప్రతిపత్త కంప్యూటర్ పనుల కోసం అత్యుత్తమ పనితీరు కనబరిచే మోడల్‌గా నిలుస్తుంది, ఇది GPT-5.4 mini కంటే మెరుగ్గా ఉంది.
ఎంటర్‌ప్రైజ్ భద్రత: అడ్వర్సరియల్ ట్రైనింగ్ మరియు సున్నితమైన చర్యల కోసం తప్పనిసరి వినియోగదారు నిర్ధారణ వంటి ఐచ్ఛిక రక్షణ చర్యల ద్వారా Google స్వయంప్రతిపత్త ఏజెంట్ల వల్ల కలిగే ప్రమాదాలను ఎదుర్కొంటుంది.

గూగుల్ జెమిని 3.5 ఫ్లాష్‌లో కంప్యూటర్ కంట్రోల్‌ను అనుసంధానిస్తోంది

Gemini 3.5 Flashలో కంప్యూటర్ కంట్రోల్‌ను Google అనుసంధానిస్తోంది

చాట్‌బాట్ నుండి స్వయంప్రతిపత్త ఏజెంట్‌గా (Autonomous Agent)

పనితీరు బెంచ్‌మార్కింగ్: Gemini vs. ఇతర మోడల్స్

స్వయంప్రతిపత్త నియంత్రణలో భద్రత మరియు రక్షణ

లభ్యత మరియు అమలు

ముఖ్య అంశాలు

Continue reading

గూగుల్ డీప్‌మైండ్ యొక్క కొత్త AI నియంత్రణ రోడ్‌మ్యాప్: ఏజెంట్లను అంతర్గత ముప్పులుగా పరిగణించడం

ఏజెంట్ల కొత్త శకాన్ని శక్తివంతం చేయడానికి గూగుల్ జెమినిని ఇంటరాక్షన్స్ APIకి మారుస్తోంది

జెమిని ఏజెంట్లతో డెవలప్‌మెంట్ చేయడానికి గూగుల్ 'ఇంటరాక్షన్స్ API'ని డిఫాల్ట్ పద్ధతిగా మారుస్తోంది

Gemini Interactions API: అత్యుత్తమ మైగ్రేషన్ గైడ్

Gemini 3.5 Flash Now Has Native Computer Use