جوجل تنقل Gemini إلى Interactions API لتمكين العصر الجديد من الوكلاء
حددت Google DeepMind رسميًا Interactions API كواجهة افتراضية لجميع نماذج ووكلاء Gemini، مما يمثل تحولاً جذرياً في كيفية بناء المطورين باستخدام ذكاء Google الاصطناعي. ومن خلال استبدال واجهة generateContent القديمة، تنتقل جوجل من التفاعلات البسيطة القائمة على "نص مدخل/نص مخرج" إلى إطار عمل معقد متعدد الخطوات مصمم خصيصاً للوكالة المستقلة (autonomous agency).
الانتقال من الدردشة البسيطة إلى الوكلاء المستقلين
خلال معظم عصر الذكاء الاصطناعي التوليدي، اعتمد المطورون على طريقة generateContent التي كانت محسنة للاستجابات أحادية الدور وغير المرتبطة بحالة (stateless). ويمثل الانتقال إلى Interactions API التزام جوجل بـ "الذكاء الاصطناعي الوكيل" (Agentic AI) — وهي أنظمة لا تكتفي بالحديث فحسب، بل تعمل أيضاً.
ووفقاً لـ Logan Kilpatrick، رئيس علاقات المطورين في Google، فإن هذه الواجهة "تمهد الطريق للعصر الجديد من الوكلاء (Agents)". ويسمح هذا التحول بميزات كان من الصعب تنفيذها سابقاً، مثل الوكلاء المدارين (Managed Agents) المجهزين ببيئات Linux sandboxes خاصة بهم. وهذا يمكن النماذج من تنفيذ الكود في بيئات آمنة ومعزولة، مما يجعلها قادرة على أداء مهام حوسبة معقدة بدلاً من مجرد التنبؤ بالرمز (token) التالي.
قدرات متقدمة: تسلسل الأدوات والتنفيذ في الخلفية
تقدم Interactions API مجموعة من القدرات عالية المستوى التي تحول Gemini من مجرد روبوت دردشة إلى مساعد وظيفي. وتشمل التحسينات التقنية الرئيسية ما يلي:
- تسلسل الأدوات (Tool Chaining): يتيح التكامل السلس مع Google Search وGoogle Maps للوكلاء ربط أفعالهم ببيانات من العالم الحقيقي.
- المهام طويلة الأمد: تدعم الواجهة التنفيذ في الخلفية، مما يسمح للوكلاء بالعمل على سير عمل معقد دون الحاجة إلى اتصال نشط ومستمر من العميل.
- التوليد متعدد الوسائط: يمكن للمطورين الآن تنسيق توليد الصور والموسيقى والكلام مباشرة من خلال سير عمل الوكيل.
- إدارة الحالة: تتعامل الواجهة مع تعقيد الاستدلال متعدد الخطوات، مما يسمح للوكلاء بالحفاظ على السياق عبر استخدامات الأدوات المتنوعة والنداءات الخارجية.
مخطط مبسط وأنماط تنفيذ محسنة
قامت Google أيضاً بتبسيط البنية التقنية للواجهة لجعلها أكثر سهولة للمطورين. فقد تم استبدال الهيكل التقليدي القائم على الأدوار (باستخدام تسميات مثل "user" و"model") بنظام من "الخطوات" المحددة النوع (typed steps). وفي هذا المخطط الجديد، يتم التعامل مع كل إجراء منفصل — بدءاً من مطالبة المستخدم وصولاً إلى استدعاء الوظيفة واستجابة الأداة اللاحقة — كخطوة محددة في تسلسل ما.
ولمعالجة الاحتياجات الاقتصادية واحتياجات الأداء لمختلف التطبيقات، قدمت Google نمطي تنفيذ متميزين:
- نمط Flex: مُحسّن لكفاءة التكلفة، حيث يوفر خفضاً بنسبة 50 بالمائة في النفقات للمطورين الذين يقومون بتشغيل مهام واسعة النطاق أو غير عاجلة.
- نمط Priority: مُحسّن لزمن الانتقال المنخفض (low latency)، مما يضمن حصول التطبيقات التي تتطلب سرعة عالية على أسرع استنتاج (inference) ممكن.
لماذا يهم هذا النظام البيئي للذكاء الاصطناعي
تشير هذه الخطوة إلى أن الصناعة تتجاوز مرحلة "روبوت الدردشة" وتنتقل إلى مرحلة "الوكيل". ومن خلال اعتماد معيار موحد لواجهة برمجة تطبيقات مبنية لاستخدام الأدوات، والتنفيذ في بيئات معزولة (sandboxed execution)، والعمليات طويلة الأمد، توفر Google البنية التحتية اللازمة للبرمجيات المستقلة التي يمكنها تصفح الويب وإدارة الملفات وتنفيذ الكود. بالنسبة للمطورين، يعني هذا قضاء وقت أقل في إدارة الحالة ووقتًا أطول في بناء سير عمل ذكاء اصطناعي معقد وموثوق.
النقاط الرئيسية
- الانتقال في واجهة برمجة التطبيقات: تحل Interactions API محل
generateContentكخيار افتراضي لـ Gemini، مما يتيح ميزات وكالة متقدمة مثل Linux sandboxing وتسلسل الأدوات. - أنماط تنفيذ جديدة: يمكن للمطورين الآن الاختيار بين نمط Flex (توفير 50% من التكلفة) ونمط Priority (المُحسّن للسرعة).
- تحول هيكلي: تنتقل الواجهة من هيكل أدوار "user/model" إلى مخطط "الخطوات المحددة النوع" (typed steps)، مما يعكس بشكل أفضل الطبيعة متعددة الخطوات للوكلاء المستقلين.
