ഏജന്റുകളുടെ പുതിയ യുഗത്തിന് കരുത്തേകാൻ ഗൂഗിൾ Gemini-യെ Interactions API-ലേക്ക് മാറ്റുന്നു
ഗൂഗിൾ ഡീപ് മൈൻഡ് (Google DeepMind) ഔദ്യോഗികമായി എല്ലാ Gemini മോഡലുകൾക്കും ഏജന്റുകൾക്കുമായി Interactions API-യെ ഡിഫോൾട്ട് ഇന്റർഫേസ് ആയി നിശ്ചയിച്ചു. ഗൂഗിളിന്റെ AI ഉപയോഗിച്ച് ഡെവലപ്പർമാർ നിർമ്മാണം നടത്തുന്ന രീതിയിൽ ഇത് ഒരു അടിസ്ഥാനപരമായ മാറ്റമാണ് സൂചിപ്പിക്കുന്നത്. പഴയ generateContent ഇന്റർഫേസിന് പകരം, ലളിതമായ ടെക്സ്റ്റ്-ഇൻ/ടെക്സ്റ്റ്-ഔട്ട് രീതിയിൽ നിന്നും സ്വയം പ്രവർത്തിക്കാൻ ശേഷിയുള്ള (autonomous agency) സങ്കീർണ്ണവും ബഹുഘട്ടങ്ങളായുള്ളതുമായ ഒരു ഫ്രെയിംവർക്കിലേക്ക് ഗൂഗിൾ മാറുകയാണ്.
ലളിതമായ ചാറ്റിംഗിന് അപ്പുറം സ്വയം പ്രവർത്തിക്കുന്ന ഏജന്റുകളിലേക്ക്
ജനറേറ്റീവ് AI യുഗത്തിന്റെ ഭൂരിഭാഗം സമയത്തും, ഡെവലപ്പർമാർ generateContent മെത്തേഡിനെയാണ് ആശ്രയിച്ചിരുന്നത്. ഇത് സ്റ്റേറ്റ്ലെസ്സ് (stateless), സിംഗിൾ-ടേൺ മറുപടികൾക്കായി ഒപ്റ്റിമൈസ് ചെയ്തതായിരുന്നു. Interactions API-യിലേക്കുള്ള ഈ മാറ്റം "Agentic AI"-യോടുള്ള ഗൂഗിളിന്റെ പ്രതിബദ്ധതയെ സൂചിപ്പിക്കുന്നു—അതായത് വെറുതെ സംസാരിക്കുക മാത്രമല്ല, പ്രവർത്തിക്കുകയും ചെയ്യുന്ന സംവിധാനങ്ങൾ.
ഗൂഗിളിന്റെ ഡെവലപ്പർ റിലേഷൻസ് ലീഡ് ലോഗൻ കിൽപാട്രിക് (Logan Kilpatrick) പറയുന്നതനുസരിച്ച്, ഈ API "ഏജന്റുകളുടെ പുതിയ യുഗത്തിന് തുടക്കം കുറിക്കുന്നു." സ്വന്തമായി Linux sandboxes ഉള്ള Managed Agents പോലുള്ള, മുമ്പ് നടപ്പിലാക്കാൻ പ്രയാസമായിരുന്ന ഫീച്ചറുകൾ ഈ മാറ്റം സാധ്യമാക്കുന്നു. ഇത് മോഡലുകൾക്ക് സുരക്ഷിതവും ഒറ്റപ്പെട്ടതുമായ (isolated) സാഹചര്യങ്ങളിൽ കോഡ് പ്രവർത്തിപ്പിക്കാൻ അനുമതി നൽകുന്നു, അതുവഴി അടുത്ത ടോക്കൺ പ്രവചിക്കുന്നതിന് പകരം സങ്കീർണ്ണമായ കമ്പ്യൂട്ടേഷണൽ ജോലികൾ ചെയ്യാൻ അവയ്ക്ക് സാധിക്കുന്നു.
നൂതന ശേഷികൾ: Tool Chaining-ഉം Background Execution-ഉം
Gemini-യെ ഒരു ചാറ്റ്ബോട്ടിന് പകരം ഒരു ഫങ്ഷണൽ അസിസ്റ്റന്റായി മാറ്റുന്ന ഉയർന്ന നിലവാരമുള്ള നിരവധി ശേഷികൾ Interactions API അവതരിപ്പിക്കുന്നു. പ്രധാന സാങ്കേതിക മെച്ചപ്പെടുത്തലുകൾ ഇവയാണ്:
- Tool Chaining: Google Search, Google Maps എന്നിവയുമായുള്ള തടസ്സമില്ലാത്ത സംയോജനം ഏജന്റുകൾക്ക് യഥാർത്ഥ ലോകത്തെ ഡാറ്റ ഉപയോഗിച്ച് പ്രവർത്തിക്കാൻ സഹായിക്കുന്നു.
- Long-running Tasks: ക്ലയന്റിൽ നിന്ന് നിരന്തരമായ കണക്ഷൻ ആവശ്യമില്ലാതെ തന്നെ സങ്കീർണ്ണമായ വർക്ക്ഫ്ലോകളിൽ ഏജന്റുകൾക്ക് പ്രവർത്തിക്കാൻ ബാക്ക്ഗ്രൗണ്ട് എക്സിക്യൂഷൻ ഈ API പിന്തുണയ്ക്കുന്നു.
- Multimodal Generation: ഡെവലപ്പർമാർക്ക് ഇപ്പോൾ ഏജന്റിക് വർക്ക്ഫ്ലോയിലൂടെ നേരിട്ട് ഇമേജുകൾ, സംഗീതം, സംസാരം എന്നിവ നിർമ്മിക്കാൻ സാധിക്കും.
- State Management: ബഹുഘട്ടങ്ങളായുള്ള യുക്തിചിന്തയുടെ (multi-step reasoning) സങ്കീർണ്ണതകൾ ഈ API കൈകാര്യം ചെയ്യുന്നു, ഇത് വിവിധ ടൂളുകളുടെ ഉപയോഗത്തിലും എക്സ്റ്റേണൽ കോളുകളിലും ഏജന്റുകൾക്ക് കോൺടെക്സ്റ്റ് നിലനിർത്താൻ സഹായിക്കുന്നു.
ലളിതമായ സ്കീമയും ഒപ്റ്റിമൈസ് ചെയ്ത എക്സിക്യൂഷൻ മോഡുകളും
ഡെവലപ്പർമാർക്ക് കൂടുതൽ എളുപ്പത്തിൽ മനസ്സിലാക്കാൻ സാധിക്കുന്ന രീതിയിൽ ഗൂഗിൾ API-യുടെ സാങ്കേതിക ഘടന ലഘൂകരിച്ചിട്ടുണ്ട്. പരമ്പരാഗതമായ റോൾ അധിഷ്ഠിത ഘടനയ്ക്ക് (ഉദാഹരണത്തിന് "user", "model" തുടങ്ങിയ ലേബലുകൾ) പകരം ടൈപ്പ് ചെയ്ത "steps" എന്ന സംവിധാനമാണ് കൊണ്ടുവന്നിരിക്കുന്നത്. ഈ പുതിയ സ്കീമയിൽ, ഒരു യൂസർ പ്രോംപ്റ്റ് മുതൽ ഫങ്ക്ഷൻ കോൾ, തുടർന്നുണ്ടാകുന്ന ടൂൾ റെസ്പോൺസ് വരെയുള്ള ഓരോ പ്രവൃത്തിയും ഒരു ക്രമത്തിലുള്ള നിർവചിക്കപ്പെട്ട സ്റ്റെപ്പായി കണക്കാക്കപ്പെടുന്നു.
വിവിധ ആപ്ലിക്കേഷനുകളുടെ സാമ്പത്തികവും പ്രവർത്തനക്ഷമതയുമായ ആവശ്യങ്ങൾ നിറവേറ്റുന്നതിനായി ഗൂഗിൾ രണ്ട് വ്യത്യസ്ത എക്സിക്യൂഷൻ മോഡുകൾ അവതരിപ്പിച്ചു:
- Flex Mode: ചെലവ് കുറയ്ക്കുന്നതിന് പ്രാധാന്യം നൽകുന്നു; വലിയ തോതിലുള്ളതോ അടിയന്തരമല്ലാത്തതോ ആയ ജോലികൾ ചെയ്യുന്ന ഡെവലപ്പർമാർക്ക് 50 ശതമാനം വരെ ചെലവ് കുറയ്ക്കാൻ ഇത് സഹായിക്കുന്നു.
- Priority Mode: കുറഞ്ഞ ലേറ്റൻസിക്ക് (low latency) പ്രാധാന്യം നൽകുന്നു; വേഗത ആവശ്യമുള്ള ആപ്ലിക്കേഷനുകൾക്ക് ഏറ്റവും വേഗത്തിലുള്ള ഇൻഫറൻസ് (inference) ഉറപ്പാക്കുന്നു.
എന്തുകൊണ്ട് ഇത് AI ഇക്കോസിസ്റ്റത്തിന് പ്രധാനമാണ്
വ്യവസായം "ചാറ്റ്ബോട്ട്" ഘട്ടത്തിൽ നിന്ന് "ഏജന്റ്" ഘട്ടത്തിലേക്ക് മാറിക്കൊണ്ടിരിക്കുകയാണെന്നതിന്റെ സൂചനയാണിത്. ടൂൾ ഉപയോഗം, സാൻഡ്ബോക്സ് എക്സിക്യൂഷൻ, ദീർഘനേരം നീണ്ടുനിൽക്കുന്ന പ്രക്രിയകൾ എന്നിവയ്ക്കായി രൂപകൽപ്പന ചെയ്ത ഒരു API നിലവാരവൽക്കരിക്കുന്നതിലൂടെ, വെബ് നാവിഗേറ്റ് ചെയ്യാനും ഫയലുകൾ കൈകാര്യം ചെയ്യാനും കോഡ് പ്രവർത്തിപ്പിക്കാനും കഴിയുന്ന സ്വയം പ്രവർത്തിക്കുന്ന സോഫ്റ്റ്വെയറുകൾക്ക് ആവശ്യമായ ഇൻഫ്രാസ്ട്രക്ചർ ഗൂഗിൾ നൽകുന്നു. ഡെവലപ്പർമാരെ സംബന്ധിച്ചിടത്തോളം, സ്റ്റേറ്റ് മാനേജ് ചെയ്യുന്നതിനായി കുറഞ്ഞ സമയവും സങ്കീർണ്ണവും വിശ്വസനീയവുമായ AI വർക്ക്ഫ്ലോകൾ നിർമ്മിക്കുന്നതിനായി കൂടുതൽ സമയവും ഇതിലൂടെ ലഭിക്കുന്നു.
പ്രധാന കാര്യങ്ങൾ
- API മാറ്റം: Gemini-യുടെ ഡിഫോൾട്ട് ആയി
generateContent-ന് പകരം Interactions API വരുന്നു. ഇത് Linux sandboxing, tool chaining തുടങ്ങിയ നൂതന ഏജന്റിക് ഫീച്ചറുകൾ സാധ്യമാക്കുന്നു. - പുതിയ എക്സിക്യൂഷൻ മോഡുകൾ: ഡെവലപ്പർമാർക്ക് ഇപ്പോൾ Flex mode (50% ചെലവ് ലാഭിക്കാം), Priority mode (വേഗതയ്ക്കായി ഒപ്റ്റിമൈസ് ചെയ്തത്) എന്നിവയിൽ നിന്ന് തിരഞ്ഞെടുക്കാം.
- ഘടനാപരമായ മാറ്റം: API "user/model" എന്ന റോൾ ഘടനയിൽ നിന്ന് "typed steps" എന്ന സ്കീമയിലേക്ക് മാറുന്നു, ഇത് സ്വയം പ്രവർത്തിക്കുന്ന ഏജന്റുകളുടെ ബഹുഘട്ട സ്വഭാവത്തെ കൂടുതൽ കൃത്യമായി പ്രതിഫലിപ്പിക്കുന്നു.
