Google ने Agents के नए युग को सशक्त बनाने के लिए Gemini को Interactions API पर स्थानांतरित किया

Google DeepMind ने आधिकारिक तौर पर सभी Gemini मॉडल्स और एजेंट्स के लिए Interactions API को डिफ़ॉल्ट इंटरफ़ेस के रूप में नामित किया है, जो डेवलपर्स द्वारा Google के AI के साथ निर्माण करने के तरीके में एक मौलिक बदलाव का संकेत है। पुराने generateContent इंटरफ़ेस को बदलकर, Google सरल text-in/text-out इंटरैक्शन से हटकर एक जटिल, multi-step फ्रेमवर्क की ओर बढ़ रहा है, जिसे विशेष रूप से autonomous agency के लिए डिज़ाइन किया गया है।

साधारण चैट से आगे बढ़कर Autonomous Agents की ओर

जनरेटिव AI के अधिकांश युग के दौरान, डेवलपर्स generateContent मेथड पर निर्भर थे, जो stateless, single-turn रिस्पॉन्स के लिए अनुकूलित (optimized) था। Interactions API में यह बदलाव "Agentic AI" के प्रति Google की प्रतिबद्धता को दर्शाता है—ऐसे सिस्टम जो न केवल बात करते हैं, बल्कि कार्य भी करते हैं।

Google के डेवलपर रिलेशंस लीड, Logan Kilpatrick के अनुसार, यह API "Agents के नए युग के लिए मंच तैयार करता है।" यह बदलाव उन फीचर्स को संभव बनाता है जिन्हें लागू करना पहले कठिन था, जैसे कि अपने स्वयं के Linux sandboxes से लैस Managed Agents। यह मॉडल्स को सुरक्षित, आइसोलेटेड वातावरण में कोड निष्पादित (execute) करने में सक्षम बनाता है, जिससे वे केवल अगले टोकन की भविष्यवाणी करने के बजाय जटिल कम्प्यूटेशनल कार्य करने में सक्षम हो जाते हैं।

उन्नत क्षमताएं: Tool Chaining और Background Execution

Interactions API उच्च-स्तरीय क्षमताओं का एक समूह पेश करता है जो Gemini को एक चैटबॉट से बदलकर एक कार्यात्मक सहायक (functional assistant) बना देता है। मुख्य तकनीकी सुधारों में शामिल हैं:

  • Tool Chaining: Google Search और Google Maps के साथ निर्बाध एकीकरण (seamless integration) एजेंट्स को वास्तविक दुनिया के डेटा के आधार पर अपने कार्यों को संचालित करने की अनुमति देता है।
  • Long-running Tasks: API बैकग्राउंड निष्पादन (background execution) का समर्थन करता है, जिससे एजेंट्स क्लाइंट से निरंतर, सक्रिय कनेक्शन की आवश्यकता के बिना जटिल वर्कफ़्लो पर काम कर सकते हैं।
  • Multimodal Generation: डेवलपर्स अब सीधे एजेंटिक वर्कफ़्लो के माध्यम से इमेज, म्यूजिक और स्पीच के जनरेशन को व्यवस्थित कर सकते हैं।
  • State Management: API मल्टी-स्टेप रीजनिंग की जटिलता को संभालता है, जिससे एजेंट्स विभिन्न टूल उपयोगों और बाहरी कॉल्स के बीच संदर्भ (context) बनाए रख सकते हैं।

एक सरल स्कीमा और अनुकूलित निष्पादन मोड (Optimized Execution Modes)

Google ने डेवलपर्स के लिए इसे अधिक सहज बनाने के लिए API के तकनीकी आर्किटेक्चर को भी सुव्यवस्थित किया है। पारंपरिक रोल-आधारित संरचना (जैसे "user" और "model" लेबल का उपयोग करना) को टाइप किए गए "steps" की प्रणाली द्वारा प्रतिस्थापित किया गया है। इस नए स्कीमा में, प्रत्येक अलग क्रिया—यूजर प्रॉम्प्ट से लेकर फंक्शन कॉल और उसके बाद के टूल रिस्पॉन्स तक—को एक अनुक्रम (sequence) में एक परिभाषित स्टेप के रूप में माना जाता है।

विभिन्न अनुप्रयोगों की आर्थिक और प्रदर्शन संबंधी आवश्यकताओं को पूरा करने के लिए, Google ने दो अलग-अलग निष्पादन मोड (execution modes) पेश किए हैं:

  • Flex Mode: लागत-दक्षता (cost-efficiency) के लिए अनुकूलित, जो बड़े पैमाने पर या गैर-जरूरी कार्य चलाने वाले डेवलपर्स के लिए खर्चों में 50 प्रतिशत की कमी प्रदान करता है।
  • Priority Mode: कम विलंबता (low latency) के लिए अनुकूलित, यह सुनिश्चित करता है कि गति-महत्वपूर्ण अनुप्रयोगों को यथासंभव तेज़ इन्फरेंस (inference) प्राप्त हो।

AI इकोसिस्टम के लिए यह क्यों महत्वपूर्ण है

यह कदम संकेत देता है कि उद्योग "चैटबॉट" चरण से आगे बढ़कर "एजेंट" चरण में प्रवेश कर रहा है। टूल उपयोग, सैंडबॉक्स्ड निष्पादन (sandboxed execution) और लंबे समय तक चलने वाली प्रक्रियाओं के लिए बनाए गए API को मानकीकृत करके, Google उस स्वायत्त सॉफ्टवेयर के लिए आवश्यक बुनियादी ढांचा प्रदान कर रहा है जो वेब पर नेविगेट कर सकता है, फाइलों को प्रबंधित कर सकता है और कोड निष्पादित कर सकता है। डेवलपर्स के लिए, इसका अर्थ है स्टेट (state) को प्रबंधित करने में कम समय और जटिल, विश्वसनीय AI वर्कफ़्लो बनाने में अधिक समय।

मुख्य बातें (Key Takeaways)

  • API Transition: Interactions API, Gemini के लिए डिफ़ॉल्ट के रूप में generateContent की जगह लेता है, जिससे Linux sandboxing और tool chaining जैसी उन्नत एजेंटिक विशेषताएं सक्षम होती हैं।
  • New Execution Modes: डेवलपर्स अब Flex mode (50% लागत बचत) और Priority mode (गति के लिए अनुकूलित) के बीच चयन कर सकते हैं।
  • Structural Shift: API "user/model" रोल संरचना से "typed steps" स्कीमा की ओर बढ़ता है, जो स्वायत्त एजेंटों की मल्टी-स्टेप प्रकृति को बेहतर ढंग से दर्शाता है।