گوگل نے ایجنٹس کے نئے دور کو طاقت دینے کے لیے Gemini کو Interactions API پر منتقل کر دیا ہے

Google DeepMind نے باضابطہ طور پر تمام Gemini ماڈلز اور ایجنٹس کے لیے Interactions API کو ڈیفالٹ انٹرفیس قرار دے دیا ہے، جو کہ گوگل کی AI کے ساتھ ڈویلپرز کے کام کرنے کے انداز میں ایک بنیادی تبدیلی کی نشاندہی کرتا ہے۔ پرانے generateContent انٹرفیس کو تبدیل کر کے، گوگل سادہ text-in/text-out تعاملات سے ہٹ کر ایک پیچیدہ، کثیر مرحلہ وار فریم ورک کی طرف بڑھ رہا ہے جو خاص طور پر خود مختار ایجنسی (autonomous agency) کے لیے ڈیزائن کیا گیا ہے۔

سادہ چیٹ سے آگے بڑھ کر خود مختار ایجنٹس تک

جنریٹیو AI کے زیادہ تر دور میں، ڈویلپرز generateContent میتھڈ پر انحصار کرتے تھے، جو کہ stateless اور single-turn جوابات کے لیے موزوں تھا۔ Interactions API کی طرف منتقلی "Agentic AI" کے لیے گوگل کے عزم کی علامت ہے—ایسے سسٹمز جو صرف بات نہیں کرتے بلکہ عمل بھی کرتے ہیں۔

گوگل کے ڈویلپر ریلیشنز لیڈ، Logan Kilpatrick کے مطابق، یہ API "ایجنٹس کے نئے دور کے لیے بنیاد فراہم کرتا ہے۔" یہ تبدیلی ان فیچرز کی اجازت دیتی ہے جنہیں پہلے نافذ کرنا مشکل تھا، جیسے کہ اپنے Linux sandboxes سے لیس Managed Agents۔ یہ ماڈلز کو محفوظ اور الگ تھلگ ماحول میں کوڈ چلانے کے قابل بناتا ہے، جس سے وہ محض اگلے ٹوکن کی پیش گوئی کرنے کے بجائے پیچیدہ کمپیوٹیشنل کام انجام دینے کے قابل ہو جاتے ہیں۔

جدید صلاحیتیں: Tool Chaining اور Background Execution

Interactions API اعلیٰ سطح کی صلاحیتوں کا ایک مجموعہ متعارف کرواتا ہے جو Gemini کو ایک چیٹ بوٹ سے ایک فعال اسسٹنٹ میں تبدیل کر دیتا ہے۔ اہم تکنیکی بہتریوں میں شامل ہیں:

  • Tool Chaining: Google Search اور Google Maps کے ساتھ ہموار انضمام ایجنٹس کو اپنے اقدامات کو حقیقی دنیا کے ڈیٹا پر مبنی بنانے کی اجازت دیتا ہے۔
  • Long-running Tasks: API بیک گراؤنڈ میں کام کرنے (background execution) کی حمایت کرتا ہے، جس سے ایجنٹس کلائنٹ سے مسلسل اور فعال کنکشن کے بغیر پیچیدہ ورک فلو پر کام کر سکتے ہیں۔
  • Multimodal Generation: ڈویلپرز اب براہ راست ایجنٹک ورک فلو کے ذریعے تصاویر، موسیقی اور آواز کی تخلیق کو منظم کر سکتے ہیں۔
  • State Management: API کثیر مرحلہ وار استدلال (multi-step reasoning) کی پیچیدگیوں کو سنبھالتا ہے، جس سے ایجنٹس مختلف ٹولز کے استعمال اور بیرونی کالز کے دوران سیاق و سباق (context) کو برقرار رکھ سکتے ہیں۔

ایک سادہ اسکیمہ اور بہتر شدہ ایگزیکیوشن موڈز

گوگل نے API کے تکنیکی ڈھانچے کو بھی سادہ بنا دیا ہے تاکہ اسے ڈویلپرز کے لیے زیادہ آسان بنایا جا سکے۔ روایتی کردار پر مبنی ڈھانچے (جیسے "user" اور "model" جیسے لیبلز کا استعمال) کو ٹائپ شدہ "steps" کے نظام سے بدل دیا گیا ہے۔ اس نئے اسکیمہ میں، ہر الگ عمل—صارف کے پرامپٹ سے لے کر فنکشن کال اور اس کے بعد ٹول کے جواب تک—ایک ترتیب میں ایک متعین مرحلے کے طور پر لیا جاتا ہے۔

مختلف ایپلی کیشنز کی معاشی اور کارکردگی کی ضروریات کو پورا کرنے کے لیے، گوگل نے دو الگ الگ ایگزیکیوشن موڈز متعارف کرائے ہیں:

  • Flex Mode: لاگت کی بچت کے لیے موزوں، جو بڑے پیمانے پر یا غیر ضروری کام چلانے والے ڈویلپرز کے اخراجات میں 50 فیصد کمی فراہم کرتا ہے۔
  • Priority Mode: کم لیٹنسی (low latency) کے لیے موزوں، جو اس بات کو یقینی بناتا ہے کہ رفتار کے لحاظ سے اہم ایپلی کیشنز کو تیز ترین ممکنہ انفرنس (inference) ملے۔

یہ AI ایکو سسٹم کے لیے کیوں اہم ہے

یہ قدم اس بات کا اشارہ ہے کہ صنعت "چیٹ بوٹ" کے مرحلے سے نکل کر "ایجنٹ" کے مرحلے میں داخل ہو رہی ہے۔ ٹول کے استعمال، سینڈ باکسڈ ایگزیکیوشن، اور طویل مدتی عمل کے لیے بنائے گئے API کو معیاری بنا کر، گوگل اس خود مختار سافٹ ویئر کے لیے ضروری انفراسٹرکچر فراہم کر رہا ہے جو ویب پر نیویگیٹ کر سکتا ہے، فائلوں کو مینیج کر سکتا ہے، اور کوڈ چلا سکتا ہے۔ ڈویلپرز کے لیے، اس کا مطلب ہے کہ اسٹیٹ (state) کو مینیج کرنے میں کم وقت لگے گا اور پیچیدہ، قابل اعتماد AI ورک فلو بنانے کے لیے زیادہ وقت ملے گا۔

اہم نکات

  • API Transition: Interactions API، Gemini کے لیے ڈیفالٹ کے طور پر generateContent کی جگہ لے رہا ہے، جو Linux sandboxing اور tool chaining جیسے جدید ایجنٹک فیچرز کو ممکن بناتا ہے۔
  • New Execution Modes: ڈویلپرز اب Flex mode (50% لاگت کی بچت) اور Priority mode (رفتار کے لیے موزوں) کے درمیان انتخاب کر سکتے ہیں۔
  • Structural Shift: API "user/model" کردار کے ڈھانچے سے "typed steps" اسکیمہ کی طرف منتقل ہو رہا ہے، جو خود مختار ایجنٹس کی کثیر مرحلہ وار نوعیت کی بہتر عکاسی کرتا ہے۔