Google chuyển Gemini sang Interactions API để thúc đẩy kỷ nguyên mới của các Agent
Google DeepMind đã chính thức chỉ định Interactions API là giao diện mặc định cho tất cả các mô hình và agent của Gemini, đánh dấu một sự thay đổi căn bản trong cách các nhà phát triển xây dựng ứng dụng với AI của Google. Bằng cách thay thế giao diện generateContent cũ, Google đang chuyển hướng từ các tương tác văn bản đầu vào/đầu ra đơn giản sang một khung làm việc đa bước phức tạp được thiết kế dành riêng cho khả năng tự chủ (autonomous agency).
Vượt xa khỏi Chat đơn thuần để tiến tới các Autonomous Agent
Trong phần lớn kỷ nguyên AI tạo sinh, các nhà phát triển đã dựa vào phương thức generateContent, vốn được tối ưu hóa cho các phản hồi không lưu trạng thái (stateless) và chỉ diễn ra trong một lượt (single-turn). Việc chuyển đổi sang Interactions API thể hiện cam kết của Google đối với "Agentic AI"—những hệ thống không chỉ biết trò chuyện mà còn biết hành động.
Theo Logan Kilpatrick, trưởng bộ phận quan hệ nhà phát triển của Google, API này "mở đường cho kỷ nguyên mới của các Agent." Sự thay đổi này cho phép triển khai các tính năng mà trước đây rất khó thực hiện, chẳng hạn như Managed Agents được trang bị các sandbox Linux riêng. Điều này cho phép các mô hình thực thi mã trong các môi trường an toàn, biệt lập, giúp chúng có khả năng thực hiện các tác vụ tính toán phức tạp thay vì chỉ dự đoán token tiếp theo.
Các khả năng nâng cao: Tool Chaining và Thực thi nền (Background Execution)
Interactions API giới thiệu một bộ các khả năng cấp cao giúp biến Gemini từ một chatbot thành một trợ lý chức năng. Các cải tiến kỹ thuật chính bao gồm:
- Tool Chaining: Sự tích hợp liền mạch với Google Search và Google Maps cho phép các agent căn cứ hành động của mình dựa trên dữ liệu thực tế.
- Long-running Tasks: API hỗ trợ thực thi nền, cho phép các agent làm việc với các quy trình phức tạp mà không yêu cầu kết nối liên tục và hoạt động từ phía client.
- Multimodal Generation: Các nhà phát triển hiện có thể điều phối việc tạo hình ảnh, âm nhạc và giọng nói trực tiếp thông qua quy trình agentic.
- State Management: API xử lý sự phức tạp của quá trình suy luận đa bước, cho phép các agent duy trì ngữ cảnh qua nhiều lần sử dụng công cụ và các lệnh gọi bên ngoài khác nhau.
Schema đơn giản hóa và các Chế độ thực thi được tối ưu hóa
Google cũng đã tinh giản kiến trúc kỹ thuật của API để giúp nó trở nên trực quan hơn đối với các nhà phát triển. Cấu trúc dựa trên vai trò truyền thống (sử dụng các nhãn như "user" và "model") đã được thay thế bằng một hệ thống các "steps" (bước) được phân loại kiểu dữ liệu. Trong schema mới này, mọi hành động riêng biệt—từ một câu lệnh của người dùng đến một lệnh gọi hàm và phản hồi tiếp theo của công cụ—đều được coi là một bước xác định trong một chuỗi.
Để giải quyết các nhu cầu về kinh tế và hiệu suất của các ứng dụng khác nhau, Google đã giới thiệu hai chế độ thực thi riêng biệt:
- Flex Mode: Được tối ưu hóa về hiệu quả chi phí, giúp giảm 50% chi phí cho các nhà phát triển chạy các tác vụ quy mô lớn hoặc không khẩn cấp.
- Priority Mode: Được tối ưu hóa để có độ trễ thấp, đảm bảo rằng các ứng dụng yêu cầu tốc độ cao sẽ nhận được kết quả suy luận nhanh nhất có thể.
Tại sao điều này lại quan trọng đối với Hệ sinh thái AI
Bước đi này báo hiệu rằng ngành công nghiệp đang vượt qua giai đoạn "chatbot" để tiến vào giai đoạn "agent". Bằng cách tiêu chuẩn hóa một API được xây dựng để sử dụng công cụ, thực thi trong sandbox và các quy trình chạy lâu dài, Google đang cung cấp cơ sở hạ tầng cần thiết cho các phần mềm tự chủ có thể điều hướng web, quản lý tệp và thực thi mã. Đối với các nhà phát triển, điều này có nghĩa là họ sẽ dành ít thời gian hơn để quản lý trạng thái và có nhiều thời gian hơn để xây dựng các quy trình làm việc AI phức tạp và đáng tin cậy.
Các điểm chính cần lưu ý
- Chuyển đổi API: Interactions API thay thế
generateContentlàm mặc định cho Gemini, cho phép các tính năng agentic nâng cao như Linux sandboxing và tool chaining. - Chế độ thực thi mới: Các nhà phát triển hiện có thể lựa chọn giữa Flex mode (tiết kiệm 50% chi phí) và Priority mode (tối ưu hóa cho tốc độ).
- Thay đổi cấu trúc: API chuyển từ cấu trúc vai trò "user/model" sang schema "typed steps", phản ánh tốt hơn bản chất đa bước của các autonomous agent.
