Google ने एजंट्सच्या नवीन युगाला सक्षम करण्यासाठी Gemini ला Interactions API कडे वळवले
Google DeepMind ने अधिकृतपणे सर्व Gemini मॉडेल्स आणि एजंट्ससाठी Interactions API ला डीफॉल्ट इंटरफेस म्हणून नियुक्त केले आहे, जे डेव्हलपर्स Google च्या AI सोबत कशा प्रकारे काम करतात यामध्ये एक मूलभूत बदल दर्शवते. जुना generateContent इंटरफेस बदलून, Google आता साध्या 'टेक्स्ट-इन/टेक्स्ट-आउट' संवादाकडून स्वायत्त एजन्सीसाठी (autonomous agency) विशेषतः डिझाइन केलेल्या जटिल, बहु-स्तरीय (multi-step) फ्रेमवर्ककडे वळत आहे.
साध्या चॅटिंगच्या पलीकडे जाऊन स्वायत्त एजंट्सकडे (Autonomous Agents) वाटचाल
जनरेटिव्ह AI च्या बहुतांश काळात, डेव्हलपर्स generateContent पद्धतीवर अवलंबून होते, जी 'स्टेटलेस' (stateless) आणि सिंगल-टर्न प्रतिसादांसाठी ऑप्टिमाइझ केलेली होती. Interactions API कडे होणारे हे संक्रमण Google च्या "Agentic AI" कडे असलेल्या वचनबद्धतेचे प्रतीक आहे—अशी प्रणाली जी केवळ बोलतेच नाही, तर कृती देखील करते.
Google चे डेव्हलपर रिलेशन्स लीड, लोगन किल्पॅट्रिक यांच्या मते, हे API "एजंट्सच्या नवीन युगासाठी पाया रचते." या बदलामुळे पूर्वी लागू करणे कठीण असलेल्या वैशिष्ट्यांसाठी मार्ग मोकळा झाला आहे, जसे की स्वतःच्या Linux sandboxes ने सुसज्ज असलेले Managed Agents. यामुळे मॉडेल्सना सुरक्षित आणि विलगीकृत (isolated) वातावरणात कोड कार्यान्वित करणे शक्य होते, ज्यामुळे ते केवळ पुढचा टोकन (token) वर्तवण्याऐवजी जटिल संगणकीय कार्ये करण्यास सक्षम होतात.
प्रगत क्षमता: Tool Chaining आणि Background Execution
Interactions API मध्ये उच्च-स्तरीय क्षमतांचा संच समाविष्ट आहे जो Gemini ला चॅटबॉटमधून एका कार्यात्मक सहाय्यकामध्ये (functional assistant) रूपांतरित करतो. मुख्य तांत्रिक सुधारणांमध्ये खालील गोष्टींचा समावेश आहे:
- Tool Chaining: Google Search आणि Google Maps सोबतच्या अखंड एकत्रीकरणामुळे एजंट्सना त्यांच्या कृती वास्तविक जगातील डेटावर आधारित ठेवता येतात.
- Long-running Tasks: हे API बॅकग्राउंड एक्झिक्यूशनला सपोर्ट करते, ज्यामुळे क्लायंटकडून सतत सक्रिय कनेक्शनची आवश्यकता न ठेवता एजंट्सना जटिल वर्कफ्लोवर काम करणे शक्य होते.
- Multimodal Generation: डेव्हलपर्स आता थेट एजन्टिक वर्कफ्लोद्वारे प्रतिमा, संगीत आणि ध्वनी (speech) तयार करण्याचे नियोजन करू शकतात.
- State Management: हे API बहु-स्तरीय तर्काची (multi-step reasoning) जटिलता हाताळते, ज्यामुळे एजंट्सना विविध टूल्सचा वापर आणि बाह्य कॉल्स दरम्यान संदर्भ (context) कायम राखता येतो.
सुलभ स्कीमा आणि ऑप्टिमाइझ केलेले एक्झिक्यूशन मोड्स
डेव्हलपर्ससाठी अधिक सोपे व्हावे यासाठी Google ने API ची तांत्रिक रचना देखील सुव्यवस्थित केली आहे. पारंपारिक रोल-आधारित संरचना ("user" आणि "model" सारख्या लेबल्सचा वापर करून) आता 'typed steps' च्या प्रणालीने बदलण्यात आली आहे. या नवीन स्कीमामध्ये, युजर प्रॉम्प्टपासून ते फंक्शन कॉल आणि त्यानंतरच्या टूल रिस्पॉन्सपर्यंतच्या प्रत्येक स्वतंत्र कृतीला एका क्रमिक मालिकेतील (sequence) परिभाषित 'स्टेप' म्हणून मानले जाते.
विविध ॲप्लिकेशन्सच्या आर्थिक आणि कामगिरीच्या गरजा पूर्ण करण्यासाठी, Google ने दोन वेगळे एक्झिक्यूशन मोड्स सादर केले आहेत:
- Flex Mode: खर्च-कार्यक्षमतेसाठी (cost-efficiency) ऑप्टिमाइझ केलेले, जे मोठ्या प्रमाणावरील किंवा तातडीचे नसलेले टास्क चालवणाऱ्या डेव्हलपर्ससाठी खर्चात ५० टक्के कपात करते.
- Priority Mode: कमी लॅटन्सीसाठी (low latency) ऑप्टिमाइझ केलेले, ज्यामुळे वेग-महत्त्वाच्या ॲप्लिकेशन्सना शक्य तितक्या वेगाने इन्फरन्स (inference) मिळण्याची खात्री मिळते.
AI इकोसिस्टमसाठी हे का महत्त्वाचे आहे
हे पाऊल सूचित करते की उद्योग आता "चॅटबॉट" टप्प्यातून पुढे सरकत "एजंट" टप्प्यात प्रवेश करत आहे. टूल वापर, सँडबॉक्स एक्झिक्यूशन आणि दीर्घकाळ चालणाऱ्या प्रक्रियांसाठी तयार केलेल्या API चे प्रमाणीकरण करून, Google अशा स्वायत्त सॉफ्टवेअरसाठी आवश्यक पायाभूत सुविधा प्रदान करत आहे जे वेबवर नेव्हिगेट करू शकते, फाइल्स व्यवस्थापित करू शकते आणि कोड कार्यान्वित करू शकते. डेव्हलपर्ससाठी, याचा अर्थ 'स्टेट' व्यवस्थापित करण्यात कमी वेळ खर्च करणे आणि जटिल, विश्वसनीय AI वर्कफ्लो तयार करण्यासाठी अधिक वेळ मिळवणे असा आहे.
मुख्य निष्कर्ष
- API संक्रमण: Interactions API ने Gemini साठी
generateContentच्या जागी डीफॉल्ट म्हणून स्थान घेतले आहे, ज्यामुळे Linux sandboxing आणि tool chaining सारखी प्रगत एजन्टिक वैशिष्ट्ये शक्य झाली आहेत. - नवीन एक्झिक्यूशन मोड्स: डेव्हलपर्स आता Flex मोड (५०% खर्च बचत) आणि Priority मोड (वेगासाठी ऑप्टिमाइझ केलेले) यांच्यात निवड करू शकतात.
- संरचनात्मक बदल: API आता "user/model" रोल स्ट्रक्चरकडून "typed steps" स्कीमाकडे वळले आहे, जे स्वायत्त एजंट्सच्या बहु-स्तरीय स्वरूपाचे अधिक चांगल्या प्रकारे प्रतिनिधित्व करते.
