Google переводить Gemini на Interactions API, щоб дати поштовх новій ері агентів
Google DeepMind офіційно визнала Interactions API інтерфейсом за замовчуванням для всіх моделей і агентів Gemini, що знаменує фундаментальний зсув у тому, як розробники створюють рішення на базі ШІ від Google. Замінюючи застарілий інтерфейс generateContent, Google переходить від простих взаємодій формату «текст на вході / текст на виході» до складної багатоетапної структури, розробленої спеціально для автономної агентності.
Перехід від простого чату до автономних агентів
Протягом більшої частини ери генеративного ШІ розробники покладалися на метод generateContent, який був оптимізований для безстатних (stateless) одноразових відповідей. Перехід до Interactions API свідчить про прагнення Google до «агентного ШІ» (Agentic AI) — систем, які не просто розмовляють, а діють.
За словами Логана Кілпатріка, керівника відділу зв'язків із розробниками Google, цей API «готує ґрунт для нової ери агентів». Такий зсув дозволяє впроваджувати функції, які раніше було важко реалізувати, наприклад, Managed Agents, оснащених власними Linux-пісочницями. Це дає моделям можливість виконувати код у безпечних, ізольованих середовищах, що дозволяє їм виконувати складні обчислювальні завдання, а не просто передбачати наступний токен.
Розширені можливості: ланцюжки інструментів та фонове виконання
Interactions API представляє набір високорівневих можливостей, які перетворюють Gemini з чат-бота на функціонального помічника. Основні технічні покращення включають:
- Tool Chaining (Ланцюжки інструментів): Безшовна інтеграція з Google Search та Google Maps дозволяє агентам спиратися на реальні дані.
- Long-running Tasks (Тривалі завдання): API підтримує фонове виконання, дозволяючи агентам працювати над складними робочими процесами без необхідності постійного активного з'єднання з клієнтом.
- Multimodal Generation (Мультимодальна генерація): Тепер розробники можуть керувати генерацією зображень, музики та мовлення безпосередньо через агентний робочий процес.
- State Management (Управління станом): API бере на себе складність багатоетапних міркувань, дозволяючи агентам зберігати контекст під час використання різних інструментів та зовнішніх викликів.
Спрощена схема та оптимізовані режими виконання
Google також спростила технічну архітектуру API, щоб зробити її інтуїтивно зрозумілішою для розробників. Традиційну структуру на основі ролей (з використанням міток «user» та «model») було замінено системою типізованих «кроків» (steps). У цій новій схемі кожна окрема дія — від запиту користувача до виклику функції та наступної відповіді інструменту — розглядається як визначений крок у послідовності.
Щоб задовольнити економічні потреби та вимоги до продуктивності різних застосунків, Google представила два окремі режими виконання:
- Flex Mode: Оптимізований для економічної ефективності, він пропонує 50-відсоткове зниження витрат для розробників, які запускають масштабні або нетермінові завдання.
- Priority Mode: Оптимізований для низької затримки, що гарантує максимально швидкий інференс для застосунків, критичних до швидкості.
Чому це важливо для екосистеми ШІ
Цей крок сигналізує про те, що індустрія переходить від фази «чат-ботів» до фази «агентів». Стандартизуючи API, розроблений для використання інструментів, виконання в пісочницях та тривалих процесів, Google створює інфраструктуру, необхідну для автономного програмного забезпечення, яке може переглядати вебсторінки, керувати файлами та виконувати код. Для розробників це означає менше часу на управління станом і більше часу на створення складних і надійних робочих процесів ШІ.
Основні висновки
- Перехід API: Interactions API замінює
generateContentяк стандартний інтерфейс для Gemini, відкриваючи доступ до розширених агентних функцій, таких як Linux-пісочниця та ланцюжки інструментів. - Нові режими виконання: Тепер розробники можуть обирати між Flex mode (економія 50% витрат) та Priority mode (оптимізовано для швидкості).
- Структурний зсув: API переходить від структури ролей «user/model» до схеми «типізованих кроків» (typed steps), що краще відображає багатоетапну природу автономних агентів.
