Google Mengalihkan Gemini ke Interactions API untuk Mendukung Era Baru Agen

Google DeepMind telah secara resmi menetapkan Interactions API sebagai antarmuka default untuk semua model dan agen Gemini, menandai pergeseran mendasar dalam cara pengembang membangun dengan AI Google. Dengan menggantikan antarmuka warisan generateContent, Google beralih dari interaksi teks-masuk/teks-keluar yang sederhana menuju kerangka kerja multi-langkah yang kompleks yang dirancang khusus untuk agensi otonom.

Melampaui Chat Sederhana Menuju Agen Otonom

Selama sebagian besar era AI generatif, pengembang mengandalkan metode generateContent, yang dioptimalkan untuk respons single-turn yang stateless. Transisi ke Interactions API menandakan komitmen Google terhadap "Agentic AI"—sistem yang tidak hanya berbicara, tetapi juga bertindak.

Menurut Logan Kilpatrick, pimpinan hubungan pengembang Google, API ini "menyiapkan panggung bagi era baru Agen." Pergeseran ini memungkinkan fitur-fitur yang sebelumnya sulit diimplementasikan, seperti Managed Agents yang dilengkapi dengan sandbox Linux mereka sendiri. Hal ini memungkinkan model untuk mengeksekusi kode dalam lingkungan yang aman dan terisolasi, membuat mereka mampu melakukan tugas komputasi yang kompleks alih-alih hanya memprediksi token berikutnya.

Kemampuan Lanjutan: Tool Chaining dan Eksekusi Latar Belakang

Interactions API memperkenalkan serangkaian kemampuan tingkat tinggi yang mengubah Gemini dari chatbot menjadi asisten fungsional. Peningkatan teknis utama meliputi:

  • Tool Chaining: Integrasi mulus dengan Google Search dan Google Maps memungkinkan agen untuk mendasarkan tindakan mereka pada data dunia nyata.
  • Long-running Tasks: API ini mendukung eksekusi latar belakang, memungkinkan agen untuk mengerjakan alur kerja yang kompleks tanpa memerlukan koneksi aktif yang konstan dari klien.
  • Multimodal Generation: Pengembang kini dapat mengatur pembuatan gambar, musik, dan ucapan secara langsung melalui alur kerja agentic.
  • State Management: API ini menangani kompleksitas penalaran multi-langkah, memungkinkan agen untuk mempertahankan konteks di berbagai penggunaan alat dan panggilan eksternal.

Skema yang Disederhanakan dan Mode Eksekusi yang Dioptimalkan

Google juga telah merampingkan arsitektur teknis API agar lebih intuitif bagi pengembang. Struktur berbasis peran tradisional (menggunakan label seperti "user" dan "model") telah digantikan oleh sistem "steps" bertipe. Dalam skema baru ini, setiap tindakan diskrit—mulai dari perintah pengguna hingga panggilan fungsi dan respons alat berikutnya—diperlakukan sebagai langkah yang ditentukan dalam sebuah urutan.

Untuk menjawab kebutuhan ekonomi dan performa dari berbagai aplikasi, Google telah memperkenalkan dua mode eksekusi yang berbeda:

  • Flex Mode: Dioptimalkan untuk efisiensi biaya, menawarkan pengurangan biaya sebesar 50 persen bagi pengembang yang menjalankan tugas skala besar atau tidak mendesak.
  • Priority Mode: Dioptimalkan untuk latensi rendah, memastikan aplikasi yang kritis terhadap kecepatan menerima inferensi tercepat yang memungkinkan.

Mengapa Ini Penting bagi Ekosistem AI

Langkah ini menandakan bahwa industri sedang bergerak melampaui fase "chatbot" dan memasuki fase "agen". Dengan menstandarisasi API yang dibangun untuk penggunaan alat, eksekusi sandbox, dan proses jangka panjang, Google menyediakan infrastruktur yang diperlukan untuk perangkat lunak otonom yang dapat menavigasi web, mengelola file, dan mengeksekusi kode. Bagi pengembang, ini berarti lebih sedikit waktu yang dihabiskan untuk mengelola state dan lebih banyak waktu untuk membangun alur kerja AI yang kompleks dan andal.

Poin-Poin Penting

  • Transisi API: Interactions API menggantikan generateContent sebagai default untuk Gemini, memungkinkan fitur agentic canggih seperti Linux sandboxing dan tool chaining.
  • Mode Eksekusi Baru: Pengembang kini dapat memilih antara mode Flex (penghematan biaya 50%) dan mode Priority (dioptimalkan untuk kecepatan).
  • Pergeseran Struktural: API beralih dari struktur peran "user/model" ke skema "typed steps", yang lebih mencerminkan sifat multi-langkah dari agen otonom.