એજન્ટ્સના નવા યુગને સશક્ત બનાવવા માટે Google Gemini ને Interactions API પર સ્થાનાંતરિત કરે છે
Google DeepMind એ સત્તાવાર રીતે તમામ Gemini મોડલ્સ અને એજન્ટ્સ માટે Interactions API ને ડિફોલ્ટ ઇન્ટરફેસ તરીકે નિયુક્ત કર્યું છે, જે ડેવલપર્સ Google ના AI સાથે કેવી રીતે કામ કરે છે તેમાં એક મૂળભૂત પરિવર્તન સૂચવે છે. જૂના generateContent ઇન્ટરફેસને બદલીને, Google સાદા ટેક્સ્ટ-ઇન/ટેક્સ્ટ-આઉટ ઇન્ટરેક્શનથી દૂર જઈને ખાસ કરીને સ્વાયત્ત એજન્સી (autonomous agency) માટે રચાયેલ એક જટિલ, મલ્ટી-સ્ટેપ ફ્રેમવર્ક તરફ વળી રહ્યું છે.
સાદા ચેટથી આગળ વધીને સ્વાયત્ત એજન્ટ્સ તરફ
જનરેટિવ AI ના મોટાભાગના યુગ દરમિયાન, ડેવલપર્સ generateContent પદ્ધતિ પર આધાર રાખતા હતા, જે સ્ટેટલેસ (stateless) અને સિંગલ-ટર્ન પ્રતિસાદો માટે ઓપ્ટિમાઇઝ કરવામાં આવી હતી. Interactions API તરફનું આ પરિવર્તન "Agentic AI" પ્રત્યે Google ની પ્રતિબદ્ધતા દર્શાવે છે—એવા સિસ્ટમ્સ જે માત્ર વાત નથી કરતી, પરંતુ કાર્ય પણ કરે છે.
Google ના ડેવલપર રિલેશન્સ લીડ, લોગન કિલ્પેટ્રિકના જણાવ્યા અનુસાર, આ API "એજન્ટ્સના નવા યુગ માટે પાયો નાખે છે." આ ફેરફાર એવા ફીચર્સને શક્ય બનાવે છે જે અગાઉ અમલમાં મૂકવા મુશ્કેલ હતા, જેમ કે પોતાના Linux sandboxes ધરાવતા Managed Agents. આ મોડલ્સને સુરક્ષિત અને અલગ વાતાવરણમાં કોડ એક્ઝિક્યુટ કરવા સક્ષમ બનાવે છે, જેનાથી તેઓ માત્ર આગામી ટોકનનું અનુમાન કરવાને બદલે જટિલ કમ્પ્યુટેશનલ કાર્યો કરવા માટે સક્ષમ બને છે.
અદ્યતન ક્ષમતાઓ: Tool Chaining અને Background Execution
Interactions API ઉચ્ચ-સ્તરની ક્ષમતાઓનો સમૂહ રજૂ કરે છે જે Gemini ને ચેટબોટમાંથી એક કાર્યક્ષમ સહાયક (functional assistant) માં પરિવર્તિત કરે છે. મુખ્ય ટેકનિકલ સુધારાઓમાં શામેલ છે:
- Tool Chaining: Google Search અને Google Maps સાથેના સીમલેસ ઇન્ટિગ્રેશન એજન્ટ્સને તેમના કાર્યોને વાસ્તવિક દુનિયાના ડેટા સાથે જોડવાની મંજૂરી આપે છે.
- Long-running Tasks: API બેકગ્રાઉન્ડ એક્ઝિક્યુશનને સપોર્ટ કરે છે, જે એજન્ટ્સને ક્લાયન્ટ તરફથી સતત, સક્રિય કનેક્શનની જરૂરિયાત વિના જટિલ વર્કફ્લો પર કામ કરવાની મંજૂરી આપે છે.
- Multimodal Generation: ડેવલપર્સ હવે એજન્ટિક વર્કફ્લો દ્વારા સીધા જ ઈમેજ, મ્યુઝિક અને સ્પીચનું જનરેશન કરી શકે છે.
- State Management: API મલ્ટી-સ્ટેપ રીઝનિંગની જટિલતાને સંભાળે છે, જે એજન્ટ્સને વિવિધ ટૂલ્સના ઉપયોગ અને બાહ્ય કોલ્સ દરમિયાન સંદર્ભ (context) જાળવી રાખવાની મંજૂરી આપે છે.
એક સરળ સ્કીમા અને ઓપ્ટિમાઇઝ્ડ એક્ઝિક્યુશન મોડ્સ
Google એ ડેવલપર્સ માટે તેને વધુ ઇન્ટ્યુટિવ બનાવવા માટે API ના ટેકનિકલ આર્કિટેક્ચરને પણ સુવ્યવસ્થિત કર્યું છે. પરંપરાગત રોલ-આધારિત માળખું ("user" અને "model" જેવા લેબલ્સનો ઉપયોગ કરીને) હવે ટાઇપ્ડ "steps" ની સિસ્ટમ દ્વારા બદલવામાં આવ્યું છે. આ નવા સ્કીમામાં, યુઝર પ્રોમ્પ્ટથી લઈને ફંક્શન કોલ અને ત્યારબાદના ટૂલ પ્રતિસાદ સુધીના દરેક અલગ કાર્યને ક્રમમાં એક વ્યાખ્યાત સ્ટેપ તરીકે ગણવામાં આવે છે.
વિવિધ એપ્લિકેશન્સની આર્થિક અને પર્ફોર્મન્સ જરૂરિયાતોને પહોંચી વળવા માટે, Google એ બે અલગ એક્ઝિક્યુશન મોડ રજૂ કર્યા છે:
- Flex Mode: ખર્ચ-કાર્યક્ષમતા માટે ઓપ્ટિમાઇઝ કરવામાં આવેલ, જે મોટા પાયે અથવા બિન-તાત્કાલિક કાર્યો ચલાવતા ડેવલપર્સ માટે ખર્ચમાં 50 ટકા ઘટાડો આપે છે.
- Priority Mode: લો લેટન્સી (low latency) માટે ઓપ્ટિમાઇઝ કરવામાં આવેલ, જે સુનિશ્ચિત કરે છે કે ઝડપ-મહત્વપૂર્ણ એપ્લિકેશન્સને શક્ય તેટલી ઝડપી ઇન્ફરન્સ મળે.
AI ઇકોસિસ્ટમ માટે આ શા માટે મહત્વનું છે
આ પગલું સૂચવે છે કે ઉદ્યોગ "ચેટબોટ" તબક્કામાંથી આગળ વધીને "એજન્ટ" તબક્કામાં પ્રવેશ કરી રહ્યો છે. ટૂલ ઉપયોગ, સેન્ડબોક્સ એક્ઝિક્યુશન અને લાંબા સમય સુધી ચાલતી પ્રક્રિયાઓ માટે બનેલા API પર પ્રમાણિત કરીને, Google એવા સ્વાયત્ત સોફ્ટવેર માટે જરૂરી ઇન્ફ્રાસ્ટ્રક્ચર પૂરૂં પાડી રહ્યું છે જે વેબ નેવિગેટ કરી શકે છે, ફાઇલો મેનેજ કરી શકે છે અને કોડ એક્ઝિક્યુટ કરી શકે છે. ડેવલપર્સ માટે, આનો અર્થ એ છે કે સ્ટેટ મેનેજ કરવામાં ઓછો સમય અને જટિલ, વિશ્વસનીય AI વર્કફ્લો બનાવવા માટે વધુ સમય મળશે.
મુખ્ય મુદ્દાઓ
- API Transition: Interactions API એ Gemini માટે ડિફોલ્ટ તરીકે
generateContentને બદલે આવે છે, જે Linux sandboxing અને tool chaining જેવા અદ્યતન એજન્ટિક ફીચર્સને સક્ષમ બનાવે છે. - New Execution Modes: ડેવલપર્સ હવે Flex mode (50% ખર્ચ બચત) અને Priority mode (ઝડપ માટે ઓપ્ટિમાઇઝ્ડ) વચ્ચે પસંદગી કરી શકે છે.
- Structural Shift: API "user/model" રોલ સ્ટ્રક્ચરથી "typed steps" સ્કીમા તરફ જાય છે, જે સ્વાયત્ત એજન્ટોના મલ્ટી-સ્ટેપ સ્વરૂપને વધુ સારી રીતે પ્રતિબિંબિત કરે છે.
