Gemini Interactions API: จุดจบของ Agent Middleware?
Google เพิ่งเปลี่ยนวิธีการสร้าง AI agent ของคุณ
Interactions API เปิดให้ใช้งานทั่วไป (generally available) แล้ว นี่คือวิธีหลักแบบใหม่ในการทำงานกับโมเดลและ agent ของ Gemini การอัปเดตนี้ทำให้ orchestration framework ส่วนใหญ่ เช่น LangGraph หรือ CrewAI กลายเป็นสิ่งที่ไม่จำเป็นสำหรับงานง่ายๆ
ก่อนหน้านี้ คุณต้องนำ 4 สิ่งมาเชื่อมต่อกัน:
- Model calls
- Tool execution
- Conversation state
- Agent lifecycle
ตอนนี้ Google ได้รวมสิ่งเหล่านี้ทั้งหมดเข้าไว้ในสัญญาฝั่งเซิร์ฟเวอร์ (server-side contract) เพียงหนึ่งเดียว
สิ่งนี้หมายถึงอะไรสำหรับคุณ:
• การประมวลผลแบบรวมศูนย์ (Unified Execution) คุณไม่จำเป็นต้องจัดการกับ "งานจุกจิก" (plumbing) อีกต่อไป การเรียก API เพียงครั้งเดียวสามารถจัดการได้ทั้ง inference, tools และ state
• สถานะฝั่งเซิร์ฟเวอร์ (Server-Side State) คุณไม่จำเป็นต้องจัดการประวัติใน Redis หรือ vector database สำหรับหน่วยความจำระยะสั้น Google จะจัดการ session ผ่าน session_id ซึ่งช่วยลดความจำเป็นในการจัดการ context window ที่ซับซ้อน
• Agent ที่มีการจัดการให้ (Managed Agents) คุณสามารถเรียก agent ID เช่น "antigravity" เพื่อสั่งการ remote Linux sandbox ได้ โดย agent นี้สามารถใช้เหตุผล, รันโค้ด และท่องเว็บได้โดยที่คุณไม่ต้องตั้งค่าโครงสร้างพื้นฐาน (infrastructure) ใดๆ
• การประมวลผลเบื้องหลัง (Background Execution) ตั้งค่า background=True สำหรับงานที่ต้องใช้เวลานาน เซิร์ฟเวอร์จะทำงานแบบ asynchronous คุณไม่จำเป็นต้องสร้าง job queues หรือ polling loops ของตัวเองอีกต่อไป
ข้อแลกเปลี่ยน: ความสามารถในการย้ายระบบ (Portability) เทียบกับ ความสะดวกสบาย (Convenience)
ข้อควรระวังที่สำคัญคือการติดล็อก (lock-in) เนื่องจากสถานะการสนทนาของคุณถูกเก็บไว้บนเซิร์ฟเวอร์ของ Google คุณจึงไม่สามารถย้ายสถานะนั้นไปยัง OpenAI หรือ Anthropic ได้โดยง่าย คุณจะได้ความเร็วและลดโค้ดส่วนเกิน (boilerplate) แต่คุณจะสูญเสียความสามารถในการเปลี่ยนผู้ให้บริการได้อย่างง่ายดาย
คำแนะนำสำหรับนักพัฒนา:
- ใช้ Interactions API สำหรับเส้นทางของ agent ที่เป็นแบบ linear และ stateful
- ใช้ LangGraph สำหรับเวิร์กโฟลว์ที่ซับซ้อน, มีการแตกกิ่งก้าน (branching) หรือเป็นแบบวงจร (cyclic)
- เก็บความรู้ระยะยาวไว้ใน vector database ของคุณเองเพื่อให้ยังคงความสามารถในการย้ายระบบ (portable)
- ติดตามค่าใช้จ่ายในการประมวลผล sandbox อย่างใกล้ชิด เนื่องจากจะมีการเรียกเก็บเงินแยกจาก tokens
ยุคของการเขียน "glue code" จำนวนมหาศาลกำลังจะสิ้นสุดลง Google กำลังย้าย orchestration layer จากโค้ดของคุณไปไว้ที่เซิร์ฟเวอร์ของพวกเขา
Optional learning community: https://t.me/GyaanSetuAi
