Google przenosi Gemini na Interactions API, aby napędzać nową erę agentów

Google DeepMind oficjalnie wyznaczyło Interactions API jako domyślny interfejs dla wszystkich modeli i agentów Gemini, co stanowi fundamentalną zmianę w sposobie, w jaki programiści budują rozwiązania oparte na AI od Google. Zastępując starszy interfejs generateContent, Google przechodzi od prostych interakcji typu tekst wejściowy/tekst wyjściowy w stronę złożonego, wieloetapowego frameworka zaprojektowanego specjalnie z myślą o autonomii agentów.

Wyjście poza prosty czat w stronę autonomicznych agentów

Przez większą część ery generatywnej sztucznej inteligencji programiści polegali na metodzie generateContent, która była zoptymalizowana pod kątem bezstanowych odpowiedzi jednoturnowych. Przejście na Interactions API oznacza zaangażowanie Google w rozwój „Agentic AI” – systemów, które nie tylko rozmawiają, ale przede wszystkim działają.

Według Logana Kilpatricka, szefa działu relacji z programistami w Google, API to „toruje drogę dla nowej ery agentów”. Ta zmiana umożliwia wprowadzenie funkcji, które wcześniej były trudne do zaimplementowania, takich jak Managed Agents wyposażone we własne piaskownice (sandboxes) Linux. Pozwala to modelom na wykonywanie kodu w bezpiecznych, odizolowanych środowiskach, dzięki czemu są one zdolne do wykonywania złożonych zadań obliczeniowych, a nie tylko przewidywania kolejnego tokenu.

Zaawansowane możliwości: Tool Chaining i wykonywanie w tle

Interactions API wprowadza zestaw wysokopoziomowych możliwości, które przekształcają Gemini z chatbota w funkcjonalnego asystenta. Kluczowe usprawnienia techniczne obejmują:

  • Tool Chaining (Łączenie narzędzi): Płynna integracja z Google Search i Google Maps pozwala agentom osadzać ich działania w rzeczywistych danych.
  • Long-running Tasks (Zadania długotrwałe): API obsługuje wykonywanie w tle, co pozwala agentom pracować nad złożonymi procesami bez konieczności utrzymywania stałego, aktywnego połączenia ze strony klienta.
  • Multimodal Generation (Generowanie multimodalne): Programiści mogą teraz zarządzać generowaniem obrazów, muzyki i mowy bezpośrednio poprzez workflow agentowy.
  • State Management (Zarządzanie stanem): API radzi sobie ze złożonością wieloetapowego rozumowania, pozwalając agentom na zachowanie kontekstu podczas korzystania z różnych narzędzi i połączeń zewnętrznych.

Uproszczony schemat i zoptymalizowane tryby wykonywania

Google usprawniło również architekturę techniczną API, aby uczynić ją bardziej intuicyjną dla programistów. Tradycyjną strukturę opartą na rolach (wykorzystującą etykiety takie jak „user” i „model”) zastąpiono systemem typowanych „kroków” (steps). W tym nowym schemacie każda odrębna akcja – od promptu użytkownika, przez wywołanie funkcji, aż po późniejszą odpowiedź narzędzia – jest traktowana jako zdefiniowany krok w sekwencji.

Aby sprostać potrzebom ekonomicznym i wydajnościowym różnych aplikacji, Google wprowadziło dwa odrębne tryby wykonywania:

  • Flex Mode: Zoptymalizowany pod kątem efektywności kosztowej, oferujący 50-procentową redukcję wydatków dla programistów realizujących zadania na dużą skalę lub niepilne.
  • Priority Mode: Zoptymalizowany pod kątem niskich opóźnień, zapewniający aplikacjom krytycznym pod względem szybkości najszybszą możliwą inferencję.

Dlaczego ma to znaczenie dla ekosystemu AI

Ten ruch sygnalizuje, że branża przechodzi z fazy „chatbota” do fazy „agenta”. Standaryzując API zbudowane z myślą o korzystaniu z narzędzi, wykonywaniu w piaskownicach i procesach długotrwałych, Google dostarcza infrastrukturę niezbędną dla autonomicznego oprogramowania, które potrafi poruszać się po sieci, zarządzać plikami i wykonywać kod. Dla programistów oznacza to mniej czasu poświęcanego na zarządzanie stanem, a więcej na budowanie złożonych i niezawodnych workflowów AI.

Kluczowe wnioski

  • Przejście na nowe API: Interactions API zastępuje generateContent jako domyślny interfejs dla Gemini, umożliwiając zaawansowane funkcje agentowe, takie jak piaskownica Linux i tool chaining.
  • Nowe tryby wykonywania: Programiści mogą teraz wybierać między trybem Flex (50% oszczędności kosztów) a trybem Priority (zoptymalizowanym pod kątem szybkości).
  • Zmiana strukturalna: API przechodzi ze struktury ról „user/model” na schemat „typowanych kroków” (typed steps), co lepiej odzwierciedla wieloetapową naturę autonomicznych agentów.