گوگل Gemini را به Interactions API منتقل میکند تا عصر جدید «عاملهای هوشمند» (Agents) را رقم بزند
گوگل DeepMind رسماً Interactions API را به عنوان رابط پیشفرض برای تمام مدلها و عاملهای Gemini تعیین کرده است که نشاندهنده تغییری بنیادین در نحوه توسعه توسط برنامهنویسان با هوش مصنوعی گوگل است. گوگل با جایگزینی رابط قدیمی generateContent در حال تغییر مسیر از تعاملات سادهی «متن ورودی/متن خروجی» به سمت یک چارچوب پیچیده و چندمرحلهای است که بهطور خاص برای عاملیت خودگردان (autonomous agency) طراحی شده است.
فراتر رفتن از چت ساده به سمت عاملهای خودگردان
در بخش بزرگی از عصر هوش مصنوعی مولد، توسعهدهندگان به متد generateContent متکی بودند که برای پاسخهای بدون وضعیت (stateless) و تکمرحلهای بهینه شده بود. گذار به Interactions API نشاندهنده تعهد گوگل به «هوش مصنوعی عاملیتمحور» (Agentic AI) است؛ سیستمهایی که فقط صحبت نمیکنند، بلکه عمل میکنند.
به گفتهی لوگان کیلپاتریک، مدیر روابط توسعهدهندگان گوگل، این API «زمینه را برای عصر جدید عاملها آماده میکند». این تغییر امکان پیادهسازی ویژگیهایی را فراهم میکند که پیش از این دشوار بودند، مانند Managed Agents مجهز به محیطهای ایزولهی (sandbox) لینوکس خودشان. این امر مدلها را قادر میسازد تا کدها را در محیطهای امن و ایزوله اجرا کنند و آنها را قادر میسازد تا به جای صرفاً پیشبینی توکن بعدی، وظایف محاسباتی پیچیده را انجام دهند.
قابلیتهای پیشرفته: زنجیرهسازی ابزار و اجرای پسزمینه
Interactions API مجموعهای از قابلیتهای سطح بالا را معرفی میکند که Gemini را از یک چتبات به یک دستیار کاربردی تبدیل میکند. بهبودهای فنی کلیدی عبارتند از:
- زنجیرهسازی ابزار (Tool Chaining): ادغام بیوقفه با Google Search و Google Maps به عاملها اجازه میدهد تا اقدامات خود را بر اساس دادههای دنیای واقعی انجام دهند.
- وظایف طولانیمدت: این API از اجرای پسزمینه پشتیبانی میکند و به عاملها اجازه میدهد تا روی جریانهای کاری پیچیده بدون نیاز به اتصال مداوم و فعال از سوی کلاینت کار کنند.
- تولید چندوجهی (Multimodal): توسعهدهندگان اکنون میتوانند تولید تصویر، موسیقی و گفتار را مستقیماً از طریق جریان کاری عاملیتمحور مدیریت کنند.
- مدیریت وضعیت (State Management): این API پیچیدگی استدلالهای چندمرحلهای را مدیریت میکند و به عاملها اجازه میدهد تا بافتار (context) را در طول استفاده از ابزارهای مختلف و فراخوانیهای خارجی حفظ کنند.
طرحوارهای سادهشده و حالتهای اجرای بهینهسازیشده
گوگل همچنین معماری فنی این API را سادهتر کرده است تا کار با آن برای توسعهدهندگان بصریتر و آسانتر شود. ساختار سنتی مبتنی بر نقش (با استفاده از برچسبهایی مانند "user" و "model") با سیستمی از «گامهای» (steps) نوعگذاریشده جایگزین شده است. در این طرحوارهی جدید، هر اقدام مجزا — از دستور کاربر گرفته تا فراخوانی یک تابع و پاسخ بعدی ابزار — به عنوان یک گام تعریفشده در یک توالی در نظر گرفته میشود.
برای پاسخگویی به نیازهای اقتصادی و عملکردی برنامههای مختلف، گوگل دو حالت اجرای متمایز را معرفی کرده است:
- حالت Flex: بهینهسازی شده برای صرفهجویی در هزینهها، که کاهش ۵۰ درصدی هزینهها را برای توسعهدهندگانی که وظایف در مقیاس بزرگ یا غیرفوری را اجرا میکنند، فراهم میکند.
- حالت Priority: بهینهسازی شده برای تأخیر کم (low latency)، که تضمین میکند برنامههای حساس به سرعت، سریعترین استنتاج (inference) ممکن را دریافت کنند.
چرا این موضوع برای اکوسیستم هوش مصنوعی اهمیت دارد
این حرکت نشان میدهد که صنعت در حال عبور از مرحلهی «چتبات» و ورود به مرحلهی «عامل» است. گوگل با استانداردسازی یک API که برای استفاده از ابزار، اجرای ایزوله (sandboxed) و فرآیندهای طولانیمدت ساخته شده است، زیرساختهای لازم را برای نرمافزارهای خودگردانی فراهم میکند که میتوانند در وب پیمایش کنند، فایلها را مدیریت کنند و کدها را اجرا کنند. برای توسعهدهندگان، این به معنای صرف زمان کمتر برای مدیریت وضعیت و زمان بیشتر برای ساخت جریانهای کاری پیچیده و قابل اعتماد هوش مصنوعی است.
نکات کلیدی
- انتقال API: Interactions API جایگزین
generateContentبه عنوان پیشفرض برای Gemini میشود و قابلیتهای پیشرفتهی عاملیتمحور مانند محیط ایزولهی لینوکس و زنجیرهسازی ابزار را امکانپذیر میکند. - حالتهای اجرای جدید: توسعهدهندگان اکنون میتوانند بین حالت Flex (۵۰٪ صرفهجویی در هزینه) و حالت Priority (بهینهسازی شده برای سرعت) انتخاب کنند.
- تغییر ساختاری: این API از ساختار نقشهای "user/model" به طرحوارهی "typed steps" تغییر یافته است که ماهیت چندمرحلهای عاملهای خودگردان را بهتر منعکس میکند.
