구글, Gemini 3.5 Flash에 컴퓨터 제어 기능 통합

Translated for your language. Read the original.

AI-assisted draft.

In this article

Google, Gemini 3.5 Flash에 컴퓨터 제어 기능 통합

Google은 Gemini 3.5 Flash 모델에 "Computer Use(컴퓨터 사용)" 기능을 직접 통합함으로써 에이전트형 AI(agentic AI) 분야에서 중요한 이정표를 세웠습니다. 이번 업데이트를 통해 모델은 컴퓨터 화면, 웹 브라우저 및 모바일 기기를 실시간으로 인식, 해석 및 상호작용할 수 있게 되었으며, 텍스트 기반의 채팅을 넘어 능동적인 디지털 실행 단계로 진화했습니다.

챗봇에서 자율 에이전트로

이전에는 컴퓨터 인터페이스를 조작하는 기능이 별도의 Gemini 2.5 모델로 제한되어 있어 원활한 통합에 어려움이 있었습니다. Google은 이 기능을 Gemini 3.5 Flash에 직접 내장함으로써 개발자들이 매우 효율적인 멀티모달 에이전트를 구축할 수 있도록 지원하고 있습니다. function calling, Google Search, Maps와 같은 기존 기능과 결합하면, 이러한 에이전트는 데스크톱, 모바일 및 브라우저 환경 전반에 걸쳐 복잡한 워크플로우를 탐색할 수 있습니다. 이를 통해 이 모델은 자동화된 소프트웨어 테스트, 복잡한 사무 행정, 크로스 플랫폼 데이터 입력과 같은 대규모 자동화 작업에 이상적인 엔진이 됩니다.

성능 벤치마킹: Gemini vs. 경쟁 모델

이번 통합의 영향은 AI의 컴퓨터 시스템 조작 능력을 측정하는 OSWorld 벤치마크에서 가장 명확하게 드러납니다. Gemini 3.5 Flash는 78.4라는 인상적인 점수를 기록하며, 업계의 많은 경쟁 모델들에 비해 우수한 추론 및 실행 능력을 입증했습니다.

참고로 Gemini 3.5 Flash는 Gemini 3 Flash(65.1)와 GPT-5.4 mini(72.1)보다 뛰어난 성능을 보였습니다. 업계 선두주자인 Anthropic Opus 4.8(83.4)과 근소한 차이인 GPT-5.5(78.7)에는 약간 뒤처지지만, Sonnet 4.6(78.4)과 대등한 성능을 보이고 Gemini 3.1 Pro(76.2)를 앞지르는 등 매우 높은 경쟁력을 유지하고 있습니다. 이러한 경쟁력 있는 위치는 속도와 정교한 컴퓨터 상호작용 사이의 균형을 찾는 개발자들에게 Gemini 3.5 Flash가 최상위 선택지임을 보여줍니다.

자율 제어의 보안 및 안전성

LLM에 사용자의 인터페이스 제어권을 부여하는 것은 특히 프롬프트 인젝션(prompt injection) 공격과 관련하여 상당한 보안 위험을 초래합니다. 이러한 위협을 완화하기 위해 Google은 엄격한 적대적 학습(adversarial training)을 실시했으며, 두 가지 별도의 엔터프라이즈급 보호 조치를 제공합니다.

첫 번째 보호 조치는 모델이 파일 삭제나 금융 거래와 같이 민감하거나 되돌릴 수 없는 작업을 수행하기 전에 사용자의 명시적인 확인을 요구합니다. 두 번째 보호 조치는 시스템이 간접 프롬프트 인젝션 시도를 감지하면 모든 작업을 자동으로 중단합니다. 이러한 내장 도구 외에도 Google은 에이전트 환경의 샌드박싱(sandboxing), 인간의 감독 유지, 엄격한 액세스 제어 구현을 포함하는 "심층 방어(defense-in-depth)" 전략을 채택할 것을 개발자들에게 강력히 권고합니다.

사용 가능성 및 구현

이러한 기능을 활용하려는 개발자는 Gemini API 및 Gemini Enterprise Agent Platform을 통해 즉시 사용할 수 있습니다. 구축 프로세스를 가속화하기 위해 Google은 GitHub 레퍼런스 구현체와 Browserbase 데모를 제공하여, 기존 소프트웨어 생태계에 자율 컴퓨터 제어 기능을 통합할 수 있는 명확한 로드맵을 제시합니다.

핵심 요약

직접 통합: 컴퓨터 제어 기능이 이제 Gemini 3.5 Flash에 기본적으로 내장되어 화면 및 브라우저와의 원활한 멀티모달 상호작용이 가능합니다.
높은 벤치마크 점수: OSWorld 점수 78.4를 기록한 Gemini 3.5 Flash는 GPT-5.4 mini를 능가하는 자율 컴퓨터 작업용 최상위 성능 모델입니다.
엔터프라이즈 보안: Google은 적대적 학습과 민감한 작업에 대한 필수 사용자 확인과 같은 선택적 보호 조치를 통해 자율 에이전트의 위험에 대응합니다.

구글, Gemini 3.5 Flash에 컴퓨터 제어 기능 통합

Google, Gemini 3.5 Flash에 컴퓨터 제어 기능 통합

챗봇에서 자율 에이전트로

성능 벤치마킹: Gemini vs. 경쟁 모델

자율 제어의 보안 및 안전성

사용 가능성 및 구현

핵심 요약

Continue reading

Google DeepMind의 새로운 AI 제어 로드맵: 에이전트를 내부 위협으로 간주하기

구글, 에이전트의 새로운 시대를 열기 위해 Gemini를 Interactions API로 전환

Google, Gemini 에이전트 구축의 기본 방식으로 Interactions API 채택

Gemini Interactions API: 궁극의 마이그레이션 가이드

Gemini 3.5 Flash Now Has Native Computer Use