گوگل Gemini را به Interactions API منتقل می‌کند تا عصر جدید «عامل‌های هوشمند» (Agents) را رقم بزند

گوگل DeepMind رسماً Interactions API را به عنوان رابط پیش‌فرض برای تمام مدل‌ها و عامل‌های Gemini تعیین کرده است که نشان‌دهنده تغییری بنیادین در نحوه توسعه توسط برنامه‌نویسان با هوش مصنوعی گوگل است. گوگل با جایگزینی رابط قدیمی generateContent در حال تغییر مسیر از تعاملات ساده‌ی «متن ورودی/متن خروجی» به سمت یک چارچوب پیچیده و چندمرحله‌ای است که به‌طور خاص برای عاملیت خودگردان (autonomous agency) طراحی شده است.

فراتر رفتن از چت ساده به سمت عامل‌های خودگردان

در بخش بزرگی از عصر هوش مصنوعی مولد، توسعه‌دهندگان به متد generateContent متکی بودند که برای پاسخ‌های بدون وضعیت (stateless) و تک‌مرحله‌ای بهینه شده بود. گذار به Interactions API نشان‌دهنده تعهد گوگل به «هوش مصنوعی عاملیت‌محور» (Agentic AI) است؛ سیستم‌هایی که فقط صحبت نمی‌کنند، بلکه عمل می‌کنند.

به گفته‌ی لوگان کیلپاتریک، مدیر روابط توسعه‌دهندگان گوگل، این API «زمینه را برای عصر جدید عامل‌ها آماده می‌کند». این تغییر امکان پیاده‌سازی ویژگی‌هایی را فراهم می‌کند که پیش از این دشوار بودند، مانند Managed Agents مجهز به محیط‌های ایزوله‌ی (sandbox) لینوکس خودشان. این امر مدل‌ها را قادر می‌سازد تا کدها را در محیط‌های امن و ایزوله اجرا کنند و آن‌ها را قادر می‌سازد تا به جای صرفاً پیش‌بینی توکن بعدی، وظایف محاسباتی پیچیده را انجام دهند.

قابلیت‌های پیشرفته: زنجیره‌سازی ابزار و اجرای پس‌زمینه

Interactions API مجموعه‌ای از قابلیت‌های سطح بالا را معرفی می‌کند که Gemini را از یک چت‌بات به یک دستیار کاربردی تبدیل می‌کند. بهبودهای فنی کلیدی عبارتند از:

  • زنجیره‌سازی ابزار (Tool Chaining): ادغام بی‌وقفه با Google Search و Google Maps به عامل‌ها اجازه می‌دهد تا اقدامات خود را بر اساس داده‌های دنیای واقعی انجام دهند.
  • وظایف طولانی‌مدت: این API از اجرای پس‌زمینه پشتیبانی می‌کند و به عامل‌ها اجازه می‌دهد تا روی جریان‌های کاری پیچیده بدون نیاز به اتصال مداوم و فعال از سوی کلاینت کار کنند.
  • تولید چندوجهی (Multimodal): توسعه‌دهندگان اکنون می‌توانند تولید تصویر، موسیقی و گفتار را مستقیماً از طریق جریان کاری عاملیت‌محور مدیریت کنند.
  • مدیریت وضعیت (State Management): این API پیچیدگی استدلال‌های چندمرحله‌ای را مدیریت می‌کند و به عامل‌ها اجازه می‌دهد تا بافتار (context) را در طول استفاده از ابزارهای مختلف و فراخوانی‌های خارجی حفظ کنند.

طرحواره‌ای ساده‌شده و حالت‌های اجرای بهینه‌سازی‌شده

گوگل همچنین معماری فنی این API را ساده‌تر کرده است تا کار با آن برای توسعه‌دهندگان بصری‌تر و آسان‌تر شود. ساختار سنتی مبتنی بر نقش (با استفاده از برچسب‌هایی مانند "user" و "model") با سیستمی از «گام‌های» (steps) نوع‌گذاری‌شده جایگزین شده است. در این طرحواره‌ی جدید، هر اقدام مجزا — از دستور کاربر گرفته تا فراخوانی یک تابع و پاسخ بعدی ابزار — به عنوان یک گام تعریف‌شده در یک توالی در نظر گرفته می‌شود.

برای پاسخگویی به نیازهای اقتصادی و عملکردی برنامه‌های مختلف، گوگل دو حالت اجرای متمایز را معرفی کرده است:

  • حالت Flex: بهینه‌سازی شده برای صرفه‌جویی در هزینه‌ها، که کاهش ۵۰ درصدی هزینه‌ها را برای توسعه‌دهندگانی که وظایف در مقیاس بزرگ یا غیرفوری را اجرا می‌کنند، فراهم می‌کند.
  • حالت Priority: بهینه‌سازی شده برای تأخیر کم (low latency)، که تضمین می‌کند برنامه‌های حساس به سرعت، سریع‌ترین استنتاج (inference) ممکن را دریافت کنند.

چرا این موضوع برای اکوسیستم هوش مصنوعی اهمیت دارد

این حرکت نشان می‌دهد که صنعت در حال عبور از مرحله‌ی «چت‌بات» و ورود به مرحله‌ی «عامل» است. گوگل با استانداردسازی یک API که برای استفاده از ابزار، اجرای ایزوله (sandboxed) و فرآیندهای طولانی‌مدت ساخته شده است، زیرساخت‌های لازم را برای نرم‌افزارهای خودگردانی فراهم می‌کند که می‌توانند در وب پیمایش کنند، فایل‌ها را مدیریت کنند و کدها را اجرا کنند. برای توسعه‌دهندگان، این به معنای صرف زمان کمتر برای مدیریت وضعیت و زمان بیشتر برای ساخت جریان‌های کاری پیچیده و قابل اعتماد هوش مصنوعی است.

نکات کلیدی

  • انتقال API: Interactions API جایگزین generateContent به عنوان پیش‌فرض برای Gemini می‌شود و قابلیت‌های پیشرفته‌ی عاملیت‌محور مانند محیط ایزوله‌ی لینوکس و زنجیره‌سازی ابزار را امکان‌پذیر می‌کند.
  • حالت‌های اجرای جدید: توسعه‌دهندگان اکنون می‌توانند بین حالت Flex (۵۰٪ صرفه‌جویی در هزینه) و حالت Priority (بهینه‌سازی شده برای سرعت) انتخاب کنند.
  • تغییر ساختاری: این API از ساختار نقش‌های "user/model" به طرحواره‌ی "typed steps" تغییر یافته است که ماهیت چندمرحله‌ای عامل‌های خودگردان را بهتر منعکس می‌کند.