एजंट्सच्या नवीन युगाला सक्षम करण्यासाठी गुगलने जेमिनीला 'Interactions API' कडे वळवले आहे

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial२ आठवड्यांपूर्वी3min read

एजंट्सच्या नवीन युगाला सक्षम करण्यासाठी गुगलने जेमिनीला 'Interactions API' कडे वळवले आहे

In this article

Google ने एजंट्सच्या नवीन युगाला सक्षम करण्यासाठी Gemini ला Interactions API कडे वळवले

Google DeepMind ने अधिकृतपणे सर्व Gemini मॉडेल्स आणि एजंट्ससाठी Interactions API ला डीफॉल्ट इंटरफेस म्हणून नियुक्त केले आहे, जे डेव्हलपर्स Google च्या AI सोबत कशा प्रकारे काम करतात यामध्ये एक मूलभूत बदल दर्शवते. जुना generateContent इंटरफेस बदलून, Google आता साध्या 'टेक्स्ट-इन/टेक्स्ट-आउट' संवादाकडून स्वायत्त एजन्सीसाठी (autonomous agency) विशेषतः डिझाइन केलेल्या जटिल, बहु-स्तरीय (multi-step) फ्रेमवर्ककडे वळत आहे.

साध्या चॅटिंगच्या पलीकडे जाऊन स्वायत्त एजंट्सकडे (Autonomous Agents) वाटचाल

जनरेटिव्ह AI च्या बहुतांश काळात, डेव्हलपर्स generateContent पद्धतीवर अवलंबून होते, जी 'स्टेटलेस' (stateless) आणि सिंगल-टर्न प्रतिसादांसाठी ऑप्टिमाइझ केलेली होती. Interactions API कडे होणारे हे संक्रमण Google च्या "Agentic AI" कडे असलेल्या वचनबद्धतेचे प्रतीक आहे—अशी प्रणाली जी केवळ बोलतेच नाही, तर कृती देखील करते.

Google चे डेव्हलपर रिलेशन्स लीड, लोगन किल्पॅट्रिक यांच्या मते, हे API "एजंट्सच्या नवीन युगासाठी पाया रचते." या बदलामुळे पूर्वी लागू करणे कठीण असलेल्या वैशिष्ट्यांसाठी मार्ग मोकळा झाला आहे, जसे की स्वतःच्या Linux sandboxes ने सुसज्ज असलेले Managed Agents. यामुळे मॉडेल्सना सुरक्षित आणि विलगीकृत (isolated) वातावरणात कोड कार्यान्वित करणे शक्य होते, ज्यामुळे ते केवळ पुढचा टोकन (token) वर्तवण्याऐवजी जटिल संगणकीय कार्ये करण्यास सक्षम होतात.

प्रगत क्षमता: Tool Chaining आणि Background Execution

Interactions API मध्ये उच्च-स्तरीय क्षमतांचा संच समाविष्ट आहे जो Gemini ला चॅटबॉटमधून एका कार्यात्मक सहाय्यकामध्ये (functional assistant) रूपांतरित करतो. मुख्य तांत्रिक सुधारणांमध्ये खालील गोष्टींचा समावेश आहे:

Tool Chaining: Google Search आणि Google Maps सोबतच्या अखंड एकत्रीकरणामुळे एजंट्सना त्यांच्या कृती वास्तविक जगातील डेटावर आधारित ठेवता येतात.
Long-running Tasks: हे API बॅकग्राउंड एक्झिक्यूशनला सपोर्ट करते, ज्यामुळे क्लायंटकडून सतत सक्रिय कनेक्शनची आवश्यकता न ठेवता एजंट्सना जटिल वर्कफ्लोवर काम करणे शक्य होते.
Multimodal Generation: डेव्हलपर्स आता थेट एजन्टिक वर्कफ्लोद्वारे प्रतिमा, संगीत आणि ध्वनी (speech) तयार करण्याचे नियोजन करू शकतात.
State Management: हे API बहु-स्तरीय तर्काची (multi-step reasoning) जटिलता हाताळते, ज्यामुळे एजंट्सना विविध टूल्सचा वापर आणि बाह्य कॉल्स दरम्यान संदर्भ (context) कायम राखता येतो.

सुलभ स्कीमा आणि ऑप्टिमाइझ केलेले एक्झिक्यूशन मोड्स

डेव्हलपर्ससाठी अधिक सोपे व्हावे यासाठी Google ने API ची तांत्रिक रचना देखील सुव्यवस्थित केली आहे. पारंपारिक रोल-आधारित संरचना ("user" आणि "model" सारख्या लेबल्सचा वापर करून) आता 'typed steps' च्या प्रणालीने बदलण्यात आली आहे. या नवीन स्कीमामध्ये, युजर प्रॉम्प्टपासून ते फंक्शन कॉल आणि त्यानंतरच्या टूल रिस्पॉन्सपर्यंतच्या प्रत्येक स्वतंत्र कृतीला एका क्रमिक मालिकेतील (sequence) परिभाषित 'स्टेप' म्हणून मानले जाते.

विविध ॲप्लिकेशन्सच्या आर्थिक आणि कामगिरीच्या गरजा पूर्ण करण्यासाठी, Google ने दोन वेगळे एक्झिक्यूशन मोड्स सादर केले आहेत:

Flex Mode: खर्च-कार्यक्षमतेसाठी (cost-efficiency) ऑप्टिमाइझ केलेले, जे मोठ्या प्रमाणावरील किंवा तातडीचे नसलेले टास्क चालवणाऱ्या डेव्हलपर्ससाठी खर्चात ५० टक्के कपात करते.
Priority Mode: कमी लॅटन्सीसाठी (low latency) ऑप्टिमाइझ केलेले, ज्यामुळे वेग-महत्त्वाच्या ॲप्लिकेशन्सना शक्य तितक्या वेगाने इन्फरन्स (inference) मिळण्याची खात्री मिळते.

AI इकोसिस्टमसाठी हे का महत्त्वाचे आहे

हे पाऊल सूचित करते की उद्योग आता "चॅटबॉट" टप्प्यातून पुढे सरकत "एजंट" टप्प्यात प्रवेश करत आहे. टूल वापर, सँडबॉक्स एक्झिक्यूशन आणि दीर्घकाळ चालणाऱ्या प्रक्रियांसाठी तयार केलेल्या API चे प्रमाणीकरण करून, Google अशा स्वायत्त सॉफ्टवेअरसाठी आवश्यक पायाभूत सुविधा प्रदान करत आहे जे वेबवर नेव्हिगेट करू शकते, फाइल्स व्यवस्थापित करू शकते आणि कोड कार्यान्वित करू शकते. डेव्हलपर्ससाठी, याचा अर्थ 'स्टेट' व्यवस्थापित करण्यात कमी वेळ खर्च करणे आणि जटिल, विश्वसनीय AI वर्कफ्लो तयार करण्यासाठी अधिक वेळ मिळवणे असा आहे.

मुख्य निष्कर्ष

API संक्रमण: Interactions API ने Gemini साठी generateContent च्या जागी डीफॉल्ट म्हणून स्थान घेतले आहे, ज्यामुळे Linux sandboxing आणि tool chaining सारखी प्रगत एजन्टिक वैशिष्ट्ये शक्य झाली आहेत.
नवीन एक्झिक्यूशन मोड्स: डेव्हलपर्स आता Flex मोड (५०% खर्च बचत) आणि Priority मोड (वेगासाठी ऑप्टिमाइझ केलेले) यांच्यात निवड करू शकतात.
संरचनात्मक बदल: API आता "user/model" रोल स्ट्रक्चरकडून "typed steps" स्कीमाकडे वळले आहे, जे स्वायत्त एजंट्सच्या बहु-स्तरीय स्वरूपाचे अधिक चांगल्या प्रकारे प्रतिनिधित्व करते.

एजंट्सच्या नवीन युगाला सक्षम करण्यासाठी गुगलने जेमिनीला 'Interactions API' कडे वळवले आहे

Google ने एजंट्सच्या नवीन युगाला सक्षम करण्यासाठी Gemini ला Interactions API कडे वळवले

साध्या चॅटिंगच्या पलीकडे जाऊन स्वायत्त एजंट्सकडे (Autonomous Agents) वाटचाल

प्रगत क्षमता: Tool Chaining आणि Background Execution

सुलभ स्कीमा आणि ऑप्टिमाइझ केलेले एक्झिक्यूशन मोड्स

AI इकोसिस्टमसाठी हे का महत्त्वाचे आहे

मुख्य निष्कर्ष

Continue reading

Gemini Agents सह निर्मितीसाठी Google ने Interactions API ला डिफॉल्ट पद्धत बनवले आहे

Gemini Interactions API: २०२६ एजंट मार्गदर्शक

गुगलने जेमिनी ३.५ फ्लॅशमध्ये 'कॉम्प्युटर कंट्रोल'ची सुविधा समाविष्ट केली आहे

Gemini Interactions API: सर्वोत्तम स्थलांतर मार्गदर्शक

Gemini Interactions API: एजंट मिडलवेअरचा अंत?