Google Beralih ke Interactions API untuk Memacu Era Baharu Ejen

Google DeepMind telah secara rasmi menetapkan Interactions API sebagai antara muka lalai untuk semua model dan ejen Gemini, menandakan peralihan asas dalam cara pembangun membina dengan AI Google. Dengan menggantikan antara muka legasi generateContent, Google beralih daripada interaksi teks-masuk/teks-keluar yang ringkas kepada rangka kerja pelbagai langkah yang kompleks yang direka khusus untuk agensi autonomi.

Melangkaui Sembang Ringkas kepada Ejen Autonomi

Sepanjang sebahagian besar era AI generatif, pembangun bergantung pada kaedah generateContent, yang dioptimumkan untuk respons tunggal tanpa keadaan (stateless). Peralihan kepada Interactions API menandakan komitmen Google terhadap "Agentic AI"—sistem yang bukan sekadar bercakap, tetapi bertindak.

Menurut Logan Kilpatrick, ketua hubungan pembangun Google, API ini "menyediakan pentas untuk era baharu Ejen." Peralihan ini membolehkan ciri-ciri yang sebelum ini sukar dilaksanakan, seperti Managed Agents yang dilengkapi dengan sandbox Linux mereka sendiri. Ini membolehkan model melaksanakan kod dalam persekitaran yang selamat dan terasing, menjadikannya mampu melakukan tugas pengkomputeran yang kompleks dan bukannya sekadar meramalkan token seterusnya.

Keupayaan Lanjutan: Rangkaian Alatan (Tool Chaining) dan Pelaksanaan Latar Belakang

Interactions API memperkenalkan rangkaian keupayaan tahap tinggi yang mengubah Gemini daripada chatbot kepada pembantu berfungsi. Penambahbaikan teknikal utama termasuk:

  • Tool Chaining: Integrasi lancar dengan Google Search dan Google Maps membolehkan ejen menyandarkan tindakan mereka pada data dunia nyata.
  • Tugas Berjalan Lama (Long-running Tasks): API ini menyokong pelaksanaan latar belakang, membolehkan ejen bekerja pada aliran kerja yang kompleks tanpa memerlukan sambungan aktif yang berterusan daripada klien.
  • Penjanaan Multimodal: Pembangun kini boleh menyelaraskan penjanaan imej, muzik, dan pertuturan secara langsung melalui aliran kerja ejen.
  • Pengurusan Keadaan (State Management): API ini mengendalikan kerumitan penaakulan pelbagai langkah, membolehkan ejen mengekalkan konteks merentasi pelbagai penggunaan alatan dan panggilan luaran.

Skema yang Dipermudahkan dan Mod Pelaksanaan yang Dioptimumkan

Google juga telah memudahkan seni bina teknikal API tersebut untuk menjadikannya lebih intuitif bagi pembangun. Struktur berasaskan peranan tradisional (menggunakan label seperti "user" dan "model") telah digantikan dengan sistem "langkah" (steps) bertipe. Dalam skema baharu ini, setiap tindakan diskret—daripada prom pengguna kepada panggilan fungsi dan tindak balas alatan seterusnya—dianggap sebagai langkah yang ditetapkan dalam satu urutan.

Untuk menangani keperluan ekonomi dan prestasi aplikasi yang berbeza, Google telah memperkenalkan dua mod pelaksanaan yang berbeza:

  • Flex Mode: Dioptimumkan untuk kecekapan kos, menawarkan pengurangan perbelanjaan sebanyak 50 peratus bagi pembangun yang menjalankan tugas berskala besar atau tidak mendesak.
  • Priority Mode: Dioptimumkan untuk kependaman (latency) rendah, memastikan aplikasi yang mementingkan kelajuan menerima inferens terpantas yang mungkin.

Mengapa Ini Penting untuk Ekosistem AI

Langkah ini menandakan bahawa industri sedang beralih daripada fasa "chatbot" ke fasa "ejen". Dengan menyeragamkan API yang dibina untuk penggunaan alatan, pelaksanaan sandbox, dan proses berjalan lama, Google menyediakan infrastruktur yang diperlukan untuk perisian autonomi yang boleh melayari web, mengurus fail, dan melaksanakan kod. Bagi pembangun, ini bermakna kurang masa dihabiskan untuk menguruskan keadaan (state) dan lebih banyak masa untuk membina aliran kerja AI yang kompleks dan boleh dipercayai.

Ringkasan Utama

  • Peralihan API: Interactions API menggantikan generateContent sebagai lalai untuk Gemini, membolehkan ciri ejen lanjutan seperti sandboxing Linux dan rangkaian alatan (tool chaining).
  • Mod Pelaksanaan Baharu: Pembangun kini boleh memilih antara mod Flex (penjimatan kos 50%) dan mod Priority (dioptimumkan untuk kelajuan).
  • Peralihan Struktur: API beralih daripada struktur peranan "user/model" kepada skema "langkah bertipe" (typed steps), yang lebih mencerminkan sifat pelbagai langkah ejen autonomi.