एजेंटों के नए युग को सशक्त बनाने के लिए गूगल ने जेमिनी को Interactions API पर स्थानांतरित किया

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

GyaanSetu Editorial2 सप्ताह पहले3मिनट पढ़ें

एजेंटों के नए युग को सशक्त बनाने के लिए गूगल ने जेमिनी को Interactions API पर स्थानांतरित किया

इस लेख में

Google ने Agents के नए युग को सशक्त बनाने के लिए Gemini को Interactions API पर स्थानांतरित किया

Google DeepMind ने आधिकारिक तौर पर सभी Gemini मॉडल्स और एजेंट्स के लिए Interactions API को डिफ़ॉल्ट इंटरफ़ेस के रूप में नामित किया है, जो डेवलपर्स द्वारा Google के AI के साथ निर्माण करने के तरीके में एक मौलिक बदलाव का संकेत है। पुराने generateContent इंटरफ़ेस को बदलकर, Google सरल text-in/text-out इंटरैक्शन से हटकर एक जटिल, multi-step फ्रेमवर्क की ओर बढ़ रहा है, जिसे विशेष रूप से autonomous agency के लिए डिज़ाइन किया गया है।

साधारण चैट से आगे बढ़कर Autonomous Agents की ओर

जनरेटिव AI के अधिकांश युग के दौरान, डेवलपर्स generateContent मेथड पर निर्भर थे, जो stateless, single-turn रिस्पॉन्स के लिए अनुकूलित (optimized) था। Interactions API में यह बदलाव "Agentic AI" के प्रति Google की प्रतिबद्धता को दर्शाता है—ऐसे सिस्टम जो न केवल बात करते हैं, बल्कि कार्य भी करते हैं।

Google के डेवलपर रिलेशंस लीड, Logan Kilpatrick के अनुसार, यह API "Agents के नए युग के लिए मंच तैयार करता है।" यह बदलाव उन फीचर्स को संभव बनाता है जिन्हें लागू करना पहले कठिन था, जैसे कि अपने स्वयं के Linux sandboxes से लैस Managed Agents। यह मॉडल्स को सुरक्षित, आइसोलेटेड वातावरण में कोड निष्पादित (execute) करने में सक्षम बनाता है, जिससे वे केवल अगले टोकन की भविष्यवाणी करने के बजाय जटिल कम्प्यूटेशनल कार्य करने में सक्षम हो जाते हैं।

उन्नत क्षमताएं: Tool Chaining और Background Execution

Interactions API उच्च-स्तरीय क्षमताओं का एक समूह पेश करता है जो Gemini को एक चैटबॉट से बदलकर एक कार्यात्मक सहायक (functional assistant) बना देता है। मुख्य तकनीकी सुधारों में शामिल हैं:

Tool Chaining: Google Search और Google Maps के साथ निर्बाध एकीकरण (seamless integration) एजेंट्स को वास्तविक दुनिया के डेटा के आधार पर अपने कार्यों को संचालित करने की अनुमति देता है।
Long-running Tasks: API बैकग्राउंड निष्पादन (background execution) का समर्थन करता है, जिससे एजेंट्स क्लाइंट से निरंतर, सक्रिय कनेक्शन की आवश्यकता के बिना जटिल वर्कफ़्लो पर काम कर सकते हैं।
Multimodal Generation: डेवलपर्स अब सीधे एजेंटिक वर्कफ़्लो के माध्यम से इमेज, म्यूजिक और स्पीच के जनरेशन को व्यवस्थित कर सकते हैं।
State Management: API मल्टी-स्टेप रीजनिंग की जटिलता को संभालता है, जिससे एजेंट्स विभिन्न टूल उपयोगों और बाहरी कॉल्स के बीच संदर्भ (context) बनाए रख सकते हैं।

एक सरल स्कीमा और अनुकूलित निष्पादन मोड (Optimized Execution Modes)

Google ने डेवलपर्स के लिए इसे अधिक सहज बनाने के लिए API के तकनीकी आर्किटेक्चर को भी सुव्यवस्थित किया है। पारंपरिक रोल-आधारित संरचना (जैसे "user" और "model" लेबल का उपयोग करना) को टाइप किए गए "steps" की प्रणाली द्वारा प्रतिस्थापित किया गया है। इस नए स्कीमा में, प्रत्येक अलग क्रिया—यूजर प्रॉम्प्ट से लेकर फंक्शन कॉल और उसके बाद के टूल रिस्पॉन्स तक—को एक अनुक्रम (sequence) में एक परिभाषित स्टेप के रूप में माना जाता है।

विभिन्न अनुप्रयोगों की आर्थिक और प्रदर्शन संबंधी आवश्यकताओं को पूरा करने के लिए, Google ने दो अलग-अलग निष्पादन मोड (execution modes) पेश किए हैं:

Flex Mode: लागत-दक्षता (cost-efficiency) के लिए अनुकूलित, जो बड़े पैमाने पर या गैर-जरूरी कार्य चलाने वाले डेवलपर्स के लिए खर्चों में 50 प्रतिशत की कमी प्रदान करता है।
Priority Mode: कम विलंबता (low latency) के लिए अनुकूलित, यह सुनिश्चित करता है कि गति-महत्वपूर्ण अनुप्रयोगों को यथासंभव तेज़ इन्फरेंस (inference) प्राप्त हो।

AI इकोसिस्टम के लिए यह क्यों महत्वपूर्ण है

यह कदम संकेत देता है कि उद्योग "चैटबॉट" चरण से आगे बढ़कर "एजेंट" चरण में प्रवेश कर रहा है। टूल उपयोग, सैंडबॉक्स्ड निष्पादन (sandboxed execution) और लंबे समय तक चलने वाली प्रक्रियाओं के लिए बनाए गए API को मानकीकृत करके, Google उस स्वायत्त सॉफ्टवेयर के लिए आवश्यक बुनियादी ढांचा प्रदान कर रहा है जो वेब पर नेविगेट कर सकता है, फाइलों को प्रबंधित कर सकता है और कोड निष्पादित कर सकता है। डेवलपर्स के लिए, इसका अर्थ है स्टेट (state) को प्रबंधित करने में कम समय और जटिल, विश्वसनीय AI वर्कफ़्लो बनाने में अधिक समय।

मुख्य बातें (Key Takeaways)

API Transition: Interactions API, Gemini के लिए डिफ़ॉल्ट के रूप में generateContent की जगह लेता है, जिससे Linux sandboxing और tool chaining जैसी उन्नत एजेंटिक विशेषताएं सक्षम होती हैं।
New Execution Modes: डेवलपर्स अब Flex mode (50% लागत बचत) और Priority mode (गति के लिए अनुकूलित) के बीच चयन कर सकते हैं।
Structural Shift: API "user/model" रोल संरचना से "typed steps" स्कीमा की ओर बढ़ता है, जो स्वायत्त एजेंटों की मल्टी-स्टेप प्रकृति को बेहतर ढंग से दर्शाता है।

एजेंटों के नए युग को सशक्त बनाने के लिए गूगल ने जेमिनी को Interactions API पर स्थानांतरित किया

Google ने Agents के नए युग को सशक्त बनाने के लिए Gemini को Interactions API पर स्थानांतरित किया

साधारण चैट से आगे बढ़कर Autonomous Agents की ओर

उन्नत क्षमताएं: Tool Chaining और Background Execution

एक सरल स्कीमा और अनुकूलित निष्पादन मोड (Optimized Execution Modes)

AI इकोसिस्टम के लिए यह क्यों महत्वपूर्ण है

मुख्य बातें (Key Takeaways)

पढ़ना जारी रखें

गूगल ने Gemini Agents के साथ निर्माण करने के लिए Interactions API को डिफ़ॉल्ट तरीका बना दिया है

ऑर्केस्ट्रेशन का पतन आ गया है

Gemini Interactions API: 2026 एजेंट गाइड

Google Integrates Computer Control into Gemini 3.5 Flash

Gemini Interactions API: माइग्रेशन का संपूर्ण गाइड