Google מעבירה את Gemini ל-Interactions API כדי להניע את העידן החדש של הסוכנים

Google DeepMind הגדירה רשמית את ה-Interactions API כממשק ברירת המחדל עבור כל מודלי Gemini והסוכנים (agents) שלה, מה שמסמן שינוי יסודי באופן שבו מפתחים בונים באמצעות ה-AI של Google. על ידי החלפת ממשק ה-generateContent הישן, Google עוברת מאינטראקציות פשוטות של טקסט-נכנס/טקסט-יוצא לעבר מסגרת עבודה (framework) מורכבת ורב-שלבית שתוכננה במיוחד עבור סוכנות אוטונומית (autonomous agency).

מעבר מצ'אט פשוט לסוכנים אוטונומיים

במשך חלק ניכר מעידן ה-Generative AI, מפתחים הסתמכו על המתודה generateContent, שעברה אופטימיזציה לתגובות חד-שלביות וחסרות מצב (stateless). המעבר ל-Interactions API מסמל את המחויבות של Google ל-"Agentic AI" — מערכות שלא רק מדברות, אלא פועלות.

לדברי Logan Kilpatrick, ראש תחום קשרי המפתחים ב-Google, ה-API הזה "מכין את הקרקע לעידן החדש של הסוכנים (Agents)". השינוי מאפשר תכונות שהיו קשות ליישום בעבר, כגון Managed Agents המצוידים ב-Linux sandboxes משלהם. זה מאפשר למודלים להריץ קוד בסביבות מאובטחות ומבודדות, מה שהופך אותם למסוגלים לבצע משימות חישוביות מורכבות במקום רק לחזות את ה-token הבא.

יכולות מתקדמות: שרשור כלים (Tool Chaining) והרצה ברקע

ה-Interactions API מציג סט של יכולות ברמה גבוהה שהופכות את Gemini מצ'אטבוט לעוזר פונקציונלי. שיפורים טכניים מרכזיים כוללים:

  • Tool Chaining: אינטגרציה חלקה עם Google Search ו-Google Maps מאפשרת לסוכנים לבסס את פעולותיהם על נתונים מהעולם האמיתי.
  • Long-running Tasks: ה-API תומך בהרצה ברקע, מה שמאפשר לסוכנים לעבוד על תהליכי עבודה (workflows) מורכבים מבלי לדרוש חיבור פעיל וקבוע מהלקוח (client).
  • Multimodal Generation: מפתחים יכולים כעת לתזמר יצירה של תמונות, מוזיקה ודיבור ישירות דרך ה-agentic workflow.
  • State Management: ה-API מטפל במורכבות של הסקה (reasoning) רב-שלבית, מה שמאפשר לסוכנים לשמור על הקשר (context) לאורך שימושים שונים בכלים וקריאות חיצוניות.

סכימה מפושטת ומצבי הרצה אופטימליים

Google גם ייעלה את הארכיטקטורה הטכנית של ה-API כדי להפוך אותה לאינטואיטיבית יותר עבור מפתחים. המבנה המסורתי מבוסס התפקידים (המשתמש בתוויות כמו "user" ו-"model") הוחלף במערכת של "steps" מוגדרים טיפוסית (typed). בסכימה החדשה הזו, כל פעולה נפרדת — מהנחיית משתמש (user prompt) ועד לקריאה לפונקציה ותגובת כלי עוקבת — נחשבת לצעד מוגדר ברצף.

כדי לתת מענה לצרכים הכלכליים וצרכי הביצועים של אפליקציות שונות, Google הציגה שני מצבי הרצה נפרדים:

  • Flex Mode: מותאם ליעילות כלכלית, ומציע הפחתה של 50 אחוז בהוצאות עבור מפתחים המריצים משימות בקנה מידה גדול או משימות שאינן דחופות.
  • Priority Mode: מותאם לשיהוי (latency) נמוך, ומבטיח שאפליקציות קריטיות למהירות יקבלו את ה-inference המהיר ביותר האפשרי.

למה זה חשוב למערכת האקולוגית של ה-AI

מהלך זה מאותת על כך שהתעשייה עוברת משלב ה-"chatbot" לשלב ה-"agent". על ידי סטנדרטיזציה של API שנבנה לשימוש בכלים, הרצה בסביבת Sandbox ותהליכים ארוכי טווח, Google מספקת את התשתית הדרושה לתוכנה אוטונומית שיכולה לנווט באינטרנט, לנהל קבצים ולהריץ קוד. עבור מפתחים, המשמעות היא פחות זמן המוקדש לניהול מצב (state) ויותר זמן לבניית תהליכי עבודה (workflows) של AI מורכבים ואמינים.

נקודות מפתח

  • מעבר API: ה-Interactions API מחליף את generateContent כברירת המחדל עבור Gemini, ומאפשר תכונות agentic מתקדמות כמו Linux sandboxing ושרשור כלים (tool chaining).
  • מצבי הרצה חדשים: מפתחים יכולים כעת לבחור בין Flex mode (חיסכון של 50% בעלויות) לבין Priority mode (מותאם למהירות).
  • שינוי מבני: ה-API עובר ממבנה תפקידים של "user/model" לסכימת "typed steps", המשקפת טוב יותר את הטבע הרב-שלבי של סוכנים אוטונומיים.