Google ਨੇ Agents ਦੇ ਨਵੇਂ ਯੁੱਗ ਨੂੰ ਸ਼ਕਤੀ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ Gemini ਨੂੰ Interactions API 'ਤੇ ਤਬਦੀਲ ਕਰ ਦਿੱਤਾ ਹੈ
Google DeepMind ਨੇ ਅਧਿਕਾਰਤ ਤੌਰ 'ਤੇ ਸਾਰੇ Gemini ਮਾਡਲਾਂ ਅਤੇ agents ਲਈ Interactions API ਨੂੰ ਡਿਫੌਲਟ ਇੰਟਰਫੇਸ ਵਜੋਂ ਨਾਮਜ਼ਦ ਕੀਤਾ ਹੈ, ਜੋ ਕਿ developers ਦੁਆਰਾ Google ਦੇ AI ਨਾਲ ਬਣਾਉਣ ਦੇ ਤਰੀਕੇ ਵਿੱਚ ਇੱਕ ਬੁਨਿਆਦੀ ਤਬਦੀਲੀ ਹੈ। ਪੁਰਾਣੇ generateContent ਇੰਟਰਫੇਸ ਨੂੰ ਬਦਲ ਕੇ, Google ਸਧਾਰਨ text-in/text-out ਇੰਟਰੈਕਸ਼ਨਾਂ ਤੋਂ ਇੱਕ ਗੁੰਝਲਦਾਰ, multi-step ਫਰੇਮਵਰਕ ਵੱਲ ਵਧ ਰਿਹਾ ਹੈ ਜੋ ਖਾਸ ਤੌਰ 'ਤੇ autonomous agency ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ।
ਸਧਾਰਨ ਚੈਟ ਤੋਂ ਅੱਗੇ ਵਧ ਕੇ Autonomous Agents ਤੱਕ
Generative AI ਦੇ ਜ਼ਿਆਦਾਤਰ ਹਿੱਸੇ ਦੌਰਾਨ, developers generateContent ਮੈਥਡ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਸਨ, ਜੋ ਕਿ stateless, single-turn ਜਵਾਬਾਂ ਲਈ ਅਨੁਕੂਲਿਤ (optimized) ਸੀ। Interactions API ਵੱਲ ਤਬਦੀਲੀ "Agentic AI" ਪ੍ਰਤੀ Google ਦੀ ਵਚਨਬੱਧਤਾ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ—ਅਜਿਹੇ ਸਿਸਟਮ ਜੋ ਸਿਰਫ਼ ਗੱਲਬਾਤ ਹੀ ਨਹੀਂ ਕਰਦੇ, ਸਗੋਂ ਕੰਮ ਵੀ ਕਰਦੇ ਹਨ।
Google ਦੇ developer relations ਲੀਡ, Logan Kilpatrick ਦੇ ਅਨੁਸਾਰ, ਇਹ API "Agents ਦੇ ਨਵੇਂ ਯੁੱਗ ਲਈ ਸਟੇਜ ਤਿਆਰ ਕਰਦਾ ਹੈ।" ਇਹ ਤਬਦੀਲੀ ਉਹਨਾਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੀ ਇਜਰਾਅ ਕਰਦੀ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ ਲਾਗੂ ਕਰਨਾ ਪਹਿਲਾਂ ਮੁਸ਼ਕਲ ਸੀ, ਜਿਵੇਂ ਕਿ ਆਪਣੇ Linux sandboxes ਨਾਲ ਲੈਸ Managed Agents। ਇਹ ਮਾਡਲਾਂ ਨੂੰ ਸੁਰੱਖਿਅਤ, ਅਲੱਗ-ਥਲੱਗ ਵਾਤਾਵਰਣਾਂ ਵਿੱਚ ਕੋਡ ਚਲਾਉਣ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਉਹ ਸਿਰਫ਼ ਅਗਲੇ token ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਦੀ ਬਜਾਏ ਗੁੰਝਲਦਾਰ ਗਣਨਾਤਮਕ (computational) ਕੰਮ ਕਰਨ ਦੇ ਸਮਰੱਥ ਹੋ ਜਾਂਦੇ ਹਨ।
ਉੱਨਤ ਸਮਰੱਥਾਵਾਂ: Tool Chaining ਅਤੇ Background Execution
Interactions API ਉੱਚ-ਪੱਧਰੀ ਸਮਰੱਥਾਵਾਂ ਦਾ ਇੱਕ ਸਮੂਹ ਪੇਸ਼ ਕਰਦਾ ਹੈ ਜੋ Gemini ਨੂੰ ਇੱਕ chatbot ਤੋਂ ਇੱਕ ਕਾਰਜਸ਼ੀਲ ਸਹਾਇਕ (functional assistant) ਵਿੱਚ ਬਦਲ ਦਿੰਦਾ ਹੈ। ਮੁੱਖ ਤਕਨੀਕੀ ਸੁਧਾਰਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:
- Tool Chaining: Google Search ਅਤੇ Google Maps ਨਾਲ ਨਿਰਵਿਘਨ ਇੱਕੀਕਰਨ (integration) agents ਨੂੰ ਆਪਣੇ ਕਾਰਜਾਂ ਨੂੰ ਅਸਲ-ਦੁਨੀਆ ਦੇ ਡੇਟਾ ਨਾਲ ਜੋੜਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ।
- Long-running Tasks: API background execution ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ, ਜਿਸ ਨਾਲ agents ਕਲਾਇੰਟ ਤੋਂ ਲਗਾਤਾਰ, ਸਰਗਰਮ ਕਨੈਕਸ਼ਨ ਦੀ ਲੋੜ ਤੋਂ ਬਿਨਾਂ ਗੁੰਝਲਦਾਰ ਵਰਕਫਲੋ 'ਤੇ ਕੰਮ ਕਰ ਸਕਦੇ ਹਨ।
- Multimodal Generation: Developers ਹੁਣ agentic workflow ਰਾਹੀਂ ਸਿੱਧੇ ਤੌਰ 'ਤੇ ਤਸਵੀਰਾਂ, ਸੰਗੀਤ ਅਤੇ ਭਾਸ਼ਣ (speech) ਦੇ ਜਨਰੇਸ਼ਨ ਨੂੰ ਸੰਚਾਲਿਤ ਕਰ ਸਕਦੇ ਹਨ।
- State Management: API multi-step ਤਰਕ ਦੀ ਗੁੰਝਲਤਾ ਨੂੰ ਸੰਭਾਲਦਾ ਹੈ, ਜਿਸ ਨਾਲ agents ਵੱਖ-ਵੱਖ tool ਦੀ ਵਰਤੋਂ ਅਤੇ ਬਾਹਰੀ ਕਾਲਾਂ (external calls) ਦੌਰਾਨ ਸੰਦਰਭ (context) ਬਣਾਈ ਰੱਖ ਸਕਦੇ ਹਨ।
ਇੱਕ ਸਰਲ Schema ਅਤੇ ਅਨੁਕੂਲਿਤ Execution Modes
Google ਨੇ developers ਲਈ ਇਸ ਨੂੰ ਵਧੇਰੇ ਸਹਿਜ (intuitive) ਬਣਾਉਣ ਲਈ API ਦੇ ਤਕਨੀਕੀ ਆਰਕੀਟੈਕਚਰ ਨੂੰ ਵੀ ਸੁਚਾਰੂ ਬਣਾਇਆ ਹੈ। ਰਵਾਇਤੀ ਭੂਮਿਕਾ-ਅਧਾਰਤ (role-based) ਢਾਂਚੇ (ਜਿਵੇਂ ਕਿ "user" ਅਤੇ "model" ਵਰਗੇ ਲੇਬਲ ਦੀ ਵਰਤੋਂ ਕਰਨਾ) ਨੂੰ typed "steps" ਦੇ ਪ੍ਰਣਾਲੀ ਨਾਲ ਬਦਲ ਦਿੱਤਾ ਗਿਆ ਹੈ। ਇਸ ਨਵੇਂ schema ਵਿੱਚ, ਹਰ ਵੱਖਰੀ ਕਾਰਵਾਈ—ਇੱਕ user prompt ਤੋਂ ਲੈ ਕੇ function call ਅਤੇ ਉਸ ਤੋਂ ਬਾਅਦ tool response ਤੱਕ—ਇੱਕ ਲੜੀ ਵਿੱਚ ਇੱਕ ਨਿਰਧਾਰਤ ਕਦਮ (step) ਵਜੋਂ ਮੰਨੀ ਜਾਂਦੀ ਹੈ।
ਵੱਖ-ਵੱਖ ਐਪਲੀਕੇਸ਼ਨਾਂ ਦੀਆਂ ਆਰਥਿਕ ਅਤੇ ਪ੍ਰਦਰਸ਼ਨ ਲੋੜਾਂ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ, Google ਨੇ ਦੋ ਵੱਖ-ਵੱਖ execution modes ਪੇਸ਼ ਕੀਤੇ ਹਨ:
- Flex Mode: ਲਾਗਤ-ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ (cost-efficiency) ਲਈ ਅਨੁਕੂਲਿਤ, ਵੱਡੇ ਪੱਧਰ ਦੇ ਜਾਂ ਗੈਰ-ਜ਼ਰੂਰੀ ਕੰਮ ਚਲਾਉਣ ਵਾਲੇ developers ਲਈ ਖਰਚਿਆਂ ਵਿੱਚ 50 ਪ੍ਰਤੀਸ਼ਤ ਦੀ ਕਮੀ ਪੇਸ਼ ਕਰਦਾ ਹੈ।
- Priority Mode: ਘੱਟ ਲੇਟੈਂਸੀ (low latency) ਲਈ ਅਨੁਕੂਲਿਤ, ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਸਪੀਡ-ਕ੍ਰਿਟੀਕਲ ਐਪਲੀਕੇਸ਼ਨਾਂ ਨੂੰ ਸਭ ਤੋਂ ਤੇਜ਼ ਸੰਭਵ inference ਮਿਲੇ।
AI Ecosystem ਲਈ ਇਹ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹੈ
ਇਹ ਕਦਮ ਸੰਕੇਤ ਦਿੰਦਾ ਹੈ ਕਿ ਉਦਯੋਗ "chatbot" ਪੜਾਅ ਤੋਂ ਅੱਗੇ ਵਧ ਕੇ "agent" ਪੜਾਅ ਵਿੱਚ ਜਾ ਰਿਹਾ ਹੈ। Tool ਦੀ ਵਰਤੋਂ, sandboxed execution, ਅਤੇ ਲੰਬੇ ਸਮੇਂ ਤੱਕ ਚੱਲਣ ਵਾਲੀਆਂ ਪ੍ਰਕਿਰਿਆਵਾਂ ਲਈ ਬਣਾਏ ਗਏ API ਨੂੰ ਮਿਆਰੀ ਬਣਾ ਕੇ, Google ਉਸ ਬੁਨਿਆਦੀ ਢਾਂਚੇ (infrastructure) ਨੂੰ ਪ੍ਰਦਾਨ ਕਰ ਰਿਹਾ ਹੈ ਜੋ ਕਿ ਅਜਿਹੇ autonomous software ਲਈ ਜ਼ਰੂਰੀ ਹੈ ਜੋ ਵੈੱਬ ਨੂੰ ਨੈਵੀਗੇਟ ਕਰ ਸਕਦਾ ਹੈ, ਫਾਈਲਾਂ ਦਾ ਪ੍ਰਬੰਧਨ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਕੋਡ ਚਲਾ ਸਕਦਾ ਹੈ। Developers ਲਈ, ਇਸਦਾ ਮਤਲਬ ਹੈ state ਦੇ ਪ੍ਰਬੰਧਨ ਵਿੱਚ ਘੱਟ ਸਮਾਂ ਲਗਾਉਣਾ ਅਤੇ ਗੁੰਝਲਦਾਰ, ਭਰੋਸੇਯੋਗ AI workflows ਬਣਾਉਣ ਲਈ ਵਧੇਰੇ ਸਮਾਂ ਮਿਲਣਾ।
ਮੁੱਖ ਗੱਲਾਂ
- API Transition: Interactions API Gemini ਲਈ ਡਿਫੌਲਟ ਵਜੋਂ
generateContentਦੀ ਜਗ੍ਹਾ ਲੈਂਦਾ ਹੈ, ਜੋ Linux sandboxing ਅਤੇ tool chaining ਵਰਗੀਆਂ ਉੱਨਤ agentic ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦਾ ਹੈ। - New Execution Modes: Developers ਹੁਣ Flex mode (50% ਲਾਗਤ ਦੀ ਬਚਤ) ਅਤੇ Priority mode (ਸਪੀਡ ਲਈ ਅਨੁਕੂਲਿਤ) ਵਿੱਚੋਂ ਚੁਣ ਸਕਦੇ ਹਨ।
- Structural Shift: API "user/model" ਭੂਮਿਕਾ ਢਾਂਚੇ ਤੋਂ "typed steps" schema ਵੱਲ ਵਧਦਾ ਹੈ, ਜੋ autonomous agents ਦੀ multi-step ਪ੍ਰਕਿਰਤੀ ਨੂੰ ਬਿਹਤਰ ਤਰੀਕੇ ਨਾਲ ਦਰਸਾਉਂਦਾ ਹੈ।
