ஏஜென்ட்களின் புதிய யுகத்திற்கு வலுசேர்க்க, Gemini-யை Interactions API-க்கு Google மாற்றுகிறது

Google DeepMind அதிகாரப்பூர்வமாக Interactions API-யை அனைத்து Gemini மாடல்கள் மற்றும் ஏஜென்ட்களுக்கான இயல்புநிலை இடைமுகமாக (default interface) அறிவித்துள்ளது. இது டெவலப்பர்கள் Google-ன் AI மூலம் கட்டமைக்கும் முறையில் ஒரு அடிப்படை மாற்றத்தைக் குறிக்கிறது. பழைய generateContent இடைமுகத்திற்குப் பதிலாக, Google இப்போது எளிய உரை-உரை (text-in/text-out) உரையாடல்களிலிருந்து, தன்னாட்சி ஏஜென்சிக்காக (autonomous agency) பிரத்யேகமாக வடிவமைக்கப்பட்ட ஒரு சிக்கலான, பல-படிநிலை கட்டமைப்பை நோக்கித் திரும்புகிறது.

எளிய சாட்டிங்கிலிருந்து தன்னாட்சி ஏஜென்ட்கள் நோக்கி நகர்தல்

உருவாக்கும் AI (generative AI) யுகத்தின் பெரும்பகுதியில், டெவலப்பர்கள் generateContent முறையையே நம்பியிருந்தனர், இது stateless மற்றும் ஒற்றை-சுற்று பதில்களுக்கு (single-turn responses) உகந்ததாக இருந்தது. Interactions API-க்கான இந்த மாற்றம், "Agentic AI"—அதாவது வெறும் உரையாடல்களை மட்டும் செய்யாமல், செயல்களையும் மேற்கொள்ளும் அமைப்புகளை உருவாக்குவதில் Google கொண்டுள்ள அர்ப்பணிப்பைக் குறிக்கிறது.

Google-ன் டெவலப்பர் உறவுகள் தலைவரான Logan Kilpatrick-ன் கூற்றுப்படி, இந்த API "ஏஜென்ட்களின் புதிய யுகத்திற்கான அடித்தளத்தை அமைக்கிறது." இந்த மாற்றம், முன்பு செயல்படுத்த கடினமாக இருந்த அம்சங்களைச் சாத்தியமாக்குகிறது, உதாரணமாக சொந்தமாக Linux sandboxes வசதியுடன் கூடிய Managed Agents. இது மாடல்கள் பாதுகாப்பான, தனிமைப்படுத்தப்பட்ட சூழல்களில் குறியீடுகளை (code) இயக்க அனுமதிக்கிறது, இதன் மூலம் அவை அடுத்த டோக்கனை (token) கணிப்பதற்குப் பதிலாக சிக்கலான கணக்கீட்டுப் பணிகளைச் செய்யும் திறன் பெறுகின்றன.

மேம்பட்ட திறன்கள்: Tool Chaining மற்றும் Background Execution

Interactions API, Gemini-யை ஒரு சாட்போட்டிலிருந்து (chatbot) ஒரு செயல்பாட்டு உதவியாளராக (functional assistant) மாற்றும் உயர்மட்டத் திறன்களை அறிமுகப்படுத்துகிறது. முக்கிய தொழில்நுட்ப மேம்பாடுகள் பின்வருமாறு:

  • Tool Chaining: Google Search மற்றும் Google Maps உடன் தடையற்ற ஒருங்கிணைப்பு, ஏஜென்ட்கள் தங்களின் செயல்களை நிஜ உலகத் தரவுகளுடன் இணைக்க அனுமதிக்கிறது.
  • Long-running Tasks: இந்த API பின்னணி செயலாக்கத்தை (background execution) ஆதரிக்கிறது, இது கிளையண்டிலிருந்து தொடர்ச்சியான, நேரடி இணைப்பு இல்லாமலேயே சிக்கலான பணிப்பாய்வுகளில் (workflows) ஏஜென்ட்கள் செயல்பட அனுமதிக்கிறது.
  • Multimodal Generation: டெவலப்பர்கள் இப்போது ஏஜென்டிக் பணிப்பாய்வு மூலம் படங்கள், இசை மற்றும் பேச்சுகளை நேரடியாக உருவாக்க முடியும்.
  • State Management: இந்த API பல-படிநிலை தர்க்கத்தின் (multi-step reasoning) சிக்கல்களைக் கையாளுகிறது, இது பல்வேறு கருவிகளின் பயன்பாடு மற்றும் வெளிப்புற அழைப்புகளுக்கு இடையிலும் ஏஜென்ட்கள் சூழலை (context) பராமரிக்க அனுமதிக்கிறது.

எளிமைப்படுத்தப்பட்ட Schema மற்றும் உகந்த செயலாக்க முறைகள்

டெவலப்பர்களுக்கு எளிதாகப் புரியும் வகையில், Google இந்த API-ன் தொழில்நுட்பக் கட்டமைப்பையும் சீரமைத்துள்ளது. பாரம்பரியமான பங்கு சார்ந்த அமைப்பு (role-based structure - "user" மற்றும் "model" போன்ற லேபிள்களைப் பயன்படுத்துவது) இப்போது வகைப்படுத்தப்பட்ட "steps" (typed steps) என்ற அமைப்பால் மாற்றப்பட்டுள்ளது. இந்த புதிய schema-வில், ஒரு பயனர் தூண்டுதல் (user prompt) முதல் ஒரு function call மற்றும் அதன் அடுத்தடுத்த கருவிப் பதில் (tool response) வரை ஒவ்வொரு தனிப்பட்ட செயலும் ஒரு தொடர்ச்சியான வரிசையில் வரையறுக்கப்பட்ட ஒரு படியாகக் கருதப்படுகிறது.

பல்வேறு பயன்பாடுகளின் பொருளாதார மற்றும் செயல்திறன் தேவைகளைப் பூர்த்தி செய்ய, Google இரண்டு வெவ்வேறு செயலாக்க முறைகளை அறிமுகப்படுத்தியுள்ளது:

  • Flex Mode: செலவுத் திறனுக்காக (cost-efficiency) உகந்ததாக்கப்பட்டது, இது பெரிய அளவிலான அல்லது அவசரமற்ற பணிகளைச் செய்யும் டெவலப்பர்களுக்கு 50 சதவீதச் செலவு குறைப்பினை வழங்குகிறது.
  • Priority Mode: குறைந்த தாமதத்திற்கு (low latency) உகந்ததாக்கப்பட்டது, இது வேகம் சார்ந்த பயன்பாடுகள் மிக விரைவான முடிவுகளைப் (inference) பெறுவதை உறுதி செய்கிறது.

AI சுற்றுச்சூழல் அமைப்பிற்கு (Ecosystem) இது ஏன் முக்கியமானது

இந்த நடவடிக்கை, தொழில் துறை "chatbot" நிலையைக் கடந்து "agent" நிலைக்கு நகர்வதைக் குறிக்கிறது. கருவி பயன்பாடு (tool use), sandboxed execution மற்றும் நீண்ட காலச் செயல்முறைகளுக்காக உருவாக்கப்பட்ட ஒரு API-ஐ தரப்படுத்துவதன் மூலம், இணையத்தைப் பயன்படுத்துதல், கோப்புகளை நிர்வகித்தல் மற்றும் குறியீடுகளை இயக்குதல் போன்றவற்றைச் செய்யக்கூடிய தன்னாட்சி மென்பொருள்களுக்குத் தேவையான உள்கட்டமைப்பை Google வழங்குகிறது. டெவலப்பர்களைப் பொறுத்தவரை, இது சூழலை (state) நிர்வகிப்பதில் செலவிடும் நேரத்தைக் குறைத்து, சிக்கலான மற்றும் நம்பகமான AI பணிப்பாய்வுகளை உருவாக்குவதற்கு அதிக நேரத்தை வழங்குகிறது.

முக்கியக் குறிப்புகள்

  • API மாற்றம்: Interactions API, Gemini-க்கான இயல்புநிலையாக generateContent-க்கு மாற்றாக வருகிறது, இது Linux sandboxing மற்றும் tool chaining போன்ற மேம்பட்ட ஏஜென்டிக் அம்சங்களைச் சாத்தியமாக்குகிறது.
  • புதிய செயலாக்க முறைகள்: டெவலப்பர்கள் இப்போது Flex mode (50% செலவு சேமிப்பு) மற்றும் Priority mode (வேகத்திற்காக உகந்ததாக்கப்பட்டது) ஆகியவற்றில் ஒன்றைத் தேர்ந்தெடுக்கலாம்.
  • கட்டமைப்பு மாற்றம்: இந்த API "user/model" பங்கு அமைப்பிலிருந்து "typed steps" schema-விற்கு மாறுகிறது, இது தன்னாட்சி ஏஜென்ட்களின் பல-படிநிலைத் தன்மையைச் சிறப்பாகப் பிரதிபலிக்கிறது.