Google, 에이전트의 새로운 시대를 열기 위해 Gemini를 Interactions API로 전환

Google DeepMind는 Interactions API를 모든 Gemini 모델 및 에이전트의 기본 인터페이스로 공식 지정했으며, 이는 개발자가 Google AI를 활용해 구축하는 방식의 근본적인 변화를 의미합니다. 기존의 generateContent 인터페이스를 대체함으로써, Google은 단순한 텍스트 입출력 방식의 상호작용에서 벗어나 자율적 에이전시(autonomous agency)를 위해 특별히 설계된 복잡한 다단계 프레임워크로 중심축을 옮기고 있습니다.

단순 채팅을 넘어 자율 에이전트로

생성형 AI 시대의 상당 기간 동안 개발자들은 상태 비저장(stateless) 방식의 단발성 응답에 최적화된 generateContent 메서드에 의존해 왔습니다. Interactions API로의 전환은 단순히 대화만 하는 것이 아니라 실제로 행동하는 시스템인 "에이전틱 AI(Agentic AI)"에 대한 Google의 의지를 나타냅니다.

Google의 개발자 관계 리드인 Logan Kilpatrick에 따르면, 이 API는 "에이전트의 새로운 시대를 위한 무대를 마련합니다." 이러한 변화를 통해 자체 Linux 샌드박스를 갖춘 Managed Agents와 같이 이전에는 구현하기 어려웠던 기능들을 사용할 수 있게 됩니다. 이를 통해 모델은 안전하고 격리된 환경에서 코드를 실행할 수 있으며, 단순히 다음 토큰을 예측하는 것을 넘어 복잡한 계산 작업을 수행할 수 있는 능력을 갖추게 됩니다.

고급 기능: 도구 체이닝 및 백그라운드 실행

Interactions API는 Gemini를 챗봇에서 기능적인 어시스턴트로 변모시키는 일련의 고급 기능들을 도입합니다. 주요 기술적 향상 사항은 다음과 같습니다:

  • 도구 체이닝(Tool Chaining): Google Search 및 Google Maps와의 원활한 통합을 통해 에이전트가 실제 데이터를 기반으로 행동할 수 있도록 합니다.
  • 장기 실행 작업(Long-running Tasks): API가 백그라운드 실행을 지원하여, 클라이언트의 지속적이고 활발한 연결 없이도 에이전트가 복잡한 워크플로를 처리할 수 있습니다.
  • 멀티모달 생성(Multimodal Generation): 개발자는 이제 에이전틱 워크플로를 통해 이미지, 음악, 음성 생성을 직접 조율할 수 있습니다.
  • 상태 관리(State Management): API가 다단계 추론의 복잡성을 처리하여, 에이전트가 다양한 도구 사용 및 외부 호출 전반에 걸쳐 문맥(context)을 유지할 수 있도록 합니다.

단순화된 스키마 및 최적화된 실행 모드

Google은 개발자들이 더 직관적으로 사용할 수 있도록 API의 기술적 아키텍처를 간소화했습니다. 기존의 역할 기반 구조("user" 및 "model"과 같은 레이블 사용)는 유형화된 "단계(steps)" 시스템으로 대체되었습니다. 이 새로운 스키마에서는 사용자 프롬프트부터 함수 호출, 그리고 이어지는 도구 응답에 이르기까지 모든 개별 작업이 시퀀스 내의 정의된 단계로 취급됩니다.

다양한 애플리케이션의 경제적 및 성능적 요구 사항을 충족하기 위해 Google은 두 가지 별도의 실행 모드를 도입했습니다:

  • Flex 모드: 비용 효율성에 최적화되어 있으며, 대규모 또는 긴급하지 않은 작업을 수행하는 개발자에게 비용을 50% 절감해 줍니다.
  • Priority 모드: 낮은 지연 시간(low latency)에 최적화되어 있어, 속도가 중요한 애플리케이션이 가능한 가장 빠른 추론을 받을 수 있도록 보장합니다.

이것이 AI 생태계에 중요한 이유

이러한 움직임은 업계가 "챗봇" 단계를 지나 "에이전트" 단계로 진입하고 있음을 시사합니다. 도구 사용, 샌드박스 실행 및 장기 실행 프로세스를 위해 구축된 API를 표준화함으로써, Google은 웹을 탐색하고 파일을 관리하며 코드를 실행할 수 있는 자율 소프트웨어에 필요한 인프라를 제공하고 있습니다. 개발자들에게 이는 상태 관리에 소비되는 시간은 줄이고, 복잡하고 신뢰할 수 있는 AI 워크플로를 구축하는 데 더 많은 시간을 할애할 수 있음을 의미합니다.

핵심 요약

  • API 전환: Interactions API가 Gemini의 기본값으로서 generateContent를 대체하며, Linux 샌드박싱 및 도구 체이닝과 같은 고급 에이전틱 기능을 가능하게 합니다.
  • 새로운 실행 모드: 개발자는 이제 Flex 모드(50% 비용 절감)와 Priority 모드(속도 최적화) 중에서 선택할 수 있습니다.
  • 구조적 변화: API가 "user/model" 역할 구조에서 "유형화된 단계(typed steps)" 스키마로 전환되어, 자율 에이전트의 다단계 특성을 더 잘 반영합니다.