ಏಜೆಂಟ್ಗಳ ಹೊಸ ಯುಗಕ್ಕೆ ಶಕ್ತಿ ತುಂಬಲು Google ತನ್ನ Gemini ಅನ್ನು Interactions API ಗೆ ಬದಲಾಯಿಸುತ್ತಿದೆ
Google DeepMind ಅಧಿಕೃತವಾಗಿ ಎಲ್ಲಾ Gemini ಮಾಡೆಲ್ಗಳು ಮತ್ತು ಏಜೆಂಟ್ಗಳಿಗಾಗಿ Interactions API ಅನ್ನು ಡಿಫಾಲ್ಟ್ ಇಂಟರ್ಫೇಸ್ ಎಂದು ಘೋಷಿಸಿದೆ, ಇದು ಗೂಗಲ್ನ AI ಬಳಸಿ ಡೆವಲಪರ್ಗಳು ಹೇಗೆ ನಿರ್ಮಿಸುತ್ತಾರೆ ಎಂಬುದರಲ್ಲಿ ಒಂದು ಮೂಲಭೂತ ಬದಲಾವಣೆಯನ್ನು ಸೂಚಿಸುತ್ತದೆ. ಹಳೆಯ generateContent ಇಂಟರ್ಫೇಸ್ ಅನ್ನು ಬದಲಾಯಿಸುವ ಮೂಲಕ, Google ಸರಳವಾದ 'text-in/text-out' ಸಂವಹನಗಳಿಂದ ಸ್ವಾಯತ್ತ ಏಜೆನ್ಸಿಯ (autonomous agency) ಉದ್ದೇಶಕ್ಕಾಗಿ ವಿನ್ಯಾಸಗೊಳಿಸಲಾದ ಸಂಕೀರ್ಣ, ಬಹು-ಹಂತದ ಚೌಕಟ್ಟಿನತ್ತ (multi-step framework) ಸಾಗುತ್ತಿದೆ.
ಸರಳ ಚಾಟ್ನಿಂದ ಸ್ವಾಯತ್ತ ಏಜೆಂಟ್ಗಳತ್ತ ಸಾಗುವಿಕೆ
ಜನರೇಟಿವ್ AI ಯುಗದ ಹೆಚ್ಚಿನ ಅವಧಿಯಲ್ಲಿ, ಡೆವಲಪರ್ಗಳು generateContent ವಿಧಾನವನ್ನು ಅವಲಂಬಿಸಿದ್ದರು, ಇದು ಸ್ಟೇಟ್ಲೆಸ್ (stateless), ಸಿಂಗಲ್-ಟರ್ನ್ ಪ್ರತಿಕ್ರಿಯೆಗಳಿಗಾಗಿ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತಿತ್ತು. Interactions API ಗೆ ಈ ಪರಿವರ್ತನೆಯು "Agentic AI" ಗೆ Google ನೀಡುತ್ತಿರುವ ಬದ್ಧತೆಯನ್ನು ಸೂಚಿಸುತ್ತದೆ—ಅಂದರೆ ಕೇವಲ ಮಾತನಾಡದೆ, ಕೆಲಸ ಮಾಡುವ ವ್ಯವಸ್ಥೆಗಳು.
Google ನ ಡೆವಲಪರ್ ರಿಲೇಶನ್ಸ್ ಲೀಡ್ ಆಗಿರುವ Logan Kilpatrick ಅವರ ಪ್ರಕಾರ, ಈ API "ಏಜೆಂಟ್ಗಳ ಹೊಸ ಯುಗಕ್ಕೆ ಮುನ್ನುಡಿ ಬರೆಯುತ್ತದೆ." ಈ ಬದಲಾವಣೆಯು ಈ ಹಿಂದೆ ಅನುಷ್ಠಾನಗೊಳಿಸಲು ಕಷ್ಟವಾಗಿದ್ದ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಅನುಮತಿಸುತ್ತದೆ, ಉದಾಹರಣೆಗೆ ಸ್ವಂತ Linux sandboxes ಹೊಂದಿರುವ Managed Agents. ಇದು ಮಾಡೆಲ್ಗಳು ಸುರಕ್ಷಿತ ಮತ್ತು ಪ್ರತ್ಯೇಕ ಪರಿಸರಗಳಲ್ಲಿ ಕೋಡ್ ಅನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ, ಇದರಿಂದಾಗಿ ಅವು ಕೇವಲ ಮುಂದಿನ ಟೋಕನ್ ಅನ್ನು ಊಹಿಸುವ ಬದಲು ಸಂಕೀರ್ಣವಾದ ಕಂಪ್ಯೂಟೇಶನಲ್ ಕಾರ್ಯಗಳನ್ನು ಮಾಡುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಪಡೆಯುತ್ತವೆ.
ಸುಧಾರಿತ ಸಾಮರ್ಥ್ಯಗಳು: Tool Chaining ಮತ್ತು Background Execution
Interactions API ಎಂಬುದು Gemini ಅನ್ನು ಚಾಟ್ಬಾಟ್ನಿಂದ ಕಾರ್ಯಕಾರಿ ಸಹಾಯಕನನ್ನಾಗಿ ಪರಿವರ್ತಿಸುವ ಉನ್ನತ ಮಟ್ಟದ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಪರಿಚಯಿಸುತ್ತದೆ. ಪ್ರಮುಖ ತಾಂತ್ರಿಕ ಸುಧಾರಣೆಗಳು ಇಲ್ಲಿವೆ:
- Tool Chaining: Google Search ಮತ್ತು Google Maps ನೊಂದಿಗೆ ಸುಗಮ ಏಕೀಕರಣವು ಏಜೆಂಟ್ಗಳು ತಮ್ಮ ಕ್ರಿಯೆಗಳನ್ನು ನೈಜ ಪ್ರಪಂಚದ ಡೇಟಾ ಆಧಾರದ ಮೇಲೆ ಮಾಡಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ.
- Long-running Tasks: ಈ API ಬ್ಯಾಕ್ಗ್ರೌಂಡ್ ಎಕ್ಸಿಕ್ಯೂಷನ್ ಅನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ, ಇದು ಕ್ಲೈಂಟ್ನಿಂದ ನಿರಂತರ, ಸಕ್ರಿಯ ಸಂಪರ್ಕದ ಅಗತ್ಯವಿಲ್ಲದೆ ಏಜೆಂಟ್ಗಳು ಸಂಕೀರ್ಣವಾದ ವರ್ಕ್ಫ್ಲೋಗಳ ಮೇಲೆ ಕೆಲಸ ಮಾಡಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ.
- Multimodal Generation: ಡೆವಲಪರ್ಗಳು ಈಗ ಏಜೆಂಟಿಕ್ ವರ್ಕ್ಫ್ಲೋ ಮೂಲಕ ನೇರವಾಗಿ ಚಿತ್ರಗಳು, ಸಂಗೀತ ಮತ್ತು ಭಾಷಣದ ಉತ್ಪಾದನೆಯನ್ನು ನಿರ್ವಹಿಸಬಹುದು.
- State Management: ಈ API ಬಹು-ಹಂತದ ತರ್ಕದ (multi-step reasoning) ಸಂಕೀರ್ಣತೆಯನ್ನು ನಿರ್ವಹಿಸುತ್ತದೆ, ಇದು ವಿವಿಧ ಟೂಲ್ ಬಳಕೆಗಳು ಮತ್ತು ಬಾಹ್ಯ ಕರೆಗಳ ನಡುವೆ ಏಜೆಂಟ್ಗಳು ಸಂದರ್ಭವನ್ನು (context) ಕಾಯ್ದುಕೊಳ್ಳಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ.
ಸರಳೀಕೃತ ಸ್ಕೀಮಾ ಮತ್ತು ಉತ್ತಮಗೊಳಿಸಲಾದ ಎಕ್ಸಿಕ್ಯೂಷನ್ ಮೋಡ್ಗಳು
ಡೆವಲಪರ್ಗಳಿಗೆ ಹೆಚ್ಚು ಸುಲಭವಾಗುವಂತೆ Google ಈ API ನ ತಾಂತ್ರಿಕ ವಾಸ್ತುಶಿಲ್ಪವನ್ನು (technical architecture) ಸರಳಗೊಳಿಸಿದೆ. ಸಾಂಪ್ರದಾಯಿಕ ರೋಲ್-ಆಧಾರಿತ ರಚನೆಯನ್ನು ("user" ಮತ್ತು "model" ನಂತಹ ಲೇಬಲ್ಗಳನ್ನು ಬಳಸುವುದು) ಟೈಪ್ ಮಾಡಲಾದ "steps" ವ್ಯವಸ್ಥೆಯೊಂದಿಗೆ ಬದಲಾಯಿಸಲಾಗಿದೆ. ಈ ಹೊಸ ಸ್ಕೀಮಾದಲ್ಲಿ, ಬಳಕೆದಾರರ ಪ್ರಾಂಪ್ಟ್ನಿಂದ ಹಿಡಿದು ಫಂಕ್ಷನ್ ಕಾಲ್ ಮತ್ತು ನಂತರದ ಟೂಲ್ ಪ್ರತಿಕ್ರಿಯೆಯವರೆಗೆ ಪ್ರತಿಯೊಂದು ಪ್ರತ್ಯೇಕ ಕ್ರಿಯೆಯನ್ನು ಸರಣಿಯಲ್ಲಿ ನಿರ್ದಿಷ್ಟ ಹಂತವಾಗಿ ಪರಿಗಣಿಸಲಾಗುತ್ತದೆ.
ವಿವಿಧ ಅಪ್ಲಿಕೇಶನ್ಗಳ ಆರ್ಥಿಕ ಮತ್ತು ಕಾರ್ಯಕ್ಷಮತೆಯ ಅಗತ್ಯಗಳನ್ನು ಪೂರೈಸಲು, Google ಎರಡು ವಿಭಿನ್ನ ಎಕ್ಸಿಕ್ಯೂಷನ್ ಮೋಡ್ಗಳನ್ನು ಪರಿಚಯಿಸಿದೆ:
- Flex Mode: ವೆಚ್ಚದ ದಕ್ಷತೆಗಾಗಿ ಉತ್ತಮಗೊಳಿಸಲಾಗಿದೆ, ಇದು ದೊಡ್ಡ ಪ್ರಮಾಣದ ಅಥವಾ ತುರ್ತಲ್ಲದ ಕಾರ್ಯಗಳನ್ನು ನಡೆಸುವ ಡೆವಲಪರ್ಗಳಿಗೆ ವೆಚ್ಚದಲ್ಲಿ ಶೇಕಡಾ 50 ರಷ್ಟು ಕಡಿತವನ್ನು ನೀಡುತ್ತದೆ.
- Priority Mode: ಕಡಿಮೆ ವಿಳಂಬದ (low latency) ಗಾಗಿ ಉತ್ತಮಗೊಳಿಸಲಾಗಿದೆ, ಇದು ವೇಗಕ್ಕೆ ನಿರ್ಣಾಯಕವಾದ ಅಪ್ಲಿಕೇಶನ್ಗಳು ಸಾಧ್ಯವಾದಷ್ಟು ವೇಗವಾಗಿ ಇನ್ಫರೆನ್ಸ್ (inference) ಪಡೆಯುವುದನ್ನು ಖಚಿತಪಡಿಸುತ್ತದೆ.
AI ಪರಿಸರ ವ್ಯವಸ್ಥೆಗೆ ಇದು ಏಕೆ ಮುಖ್ಯ
ಈ ಕ್ರಮವು ಉದ್ಯಮವು "ಚಾಟ್ಬಾಟ್" ಹಂತವನ್ನು ದಾಟಿ "ಏಜೆಂಟ್" ಹಂತಕ್ಕೆ ಸಾಗುತ್ತಿದೆ ಎಂಬುದನ್ನು ಸೂಚಿಸುತ್ತದೆ. ಟೂಲ್ ಬಳಕೆ, ಸ್ಯಾಂಡ್ಬಾಕ್ಸ್ಡ್ ಎಕ್ಸಿಕ್ಯೂಷನ್ ಮತ್ತು ದೀರ್ಘಾವಧಿಯ ಪ್ರಕ್ರಿಯೆಗಳಿಗಾಗಿ ನಿರ್ಮಿಸಲಾದ API ಅನ್ನು ಪ್ರಮಾಣೀಕರಿಸುವ ಮೂಲಕ, Google ವೆಬ್ ಅನ್ನು ನ್ಯಾವಿಗೇಟ್ ಮಾಡಬಲ್ಲ, ಫೈಲ್ಗಳನ್ನು ನಿರ್ವಹಿಸಬಲ್ಲ ಮತ್ತು ಕೋಡ್ ಅನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸಬಲ್ಲ ಸ್ವಾಯತ್ತ ಸಾಫ್ಟ್ವೇರ್ಗೆ ಅಗತ್ಯವಾದ ಮೂಲಸೌಕರ್ಯವನ್ನು ಒದಗಿಸುತ್ತಿದೆ. ಡೆವಲಪರ್ಗಳಿಗೆ, ಇದರರ್ಥ ಸ್ಟೇಟ್ ನಿರ್ವಹಣೆಯಲ್ಲಿ ಕಡಿಮೆ ಸಮಯ ವ್ಯಯಿಸಿ, ಸಂಕೀರ್ಣ ಮತ್ತು ವಿಶ್ವಾಸಾರ್ಹ AI ವರ್ಕ್ಫ್ಲೋಗಳನ್ನು ನಿರ್ಮಿಸಲು ಹೆಚ್ಚು ಸಮಯ ಸಿಗುತ್ತದೆ.
ಪ್ರಮುಖ ಅಂಶಗಳು
- API ಪರಿವರ್ತನೆ: Interactions API ಎಂಬುದು Gemini ಗಾಗಿ
generateContentಅನ್ನು ಡಿಫಾಲ್ಟ್ ಆಗಿ ಬದಲಾಯಿಸುತ್ತದೆ, ಇದು Linux sandboxing ಮತ್ತು tool chaining ನಂತಹ ಸುಧಾರಿತ ಏಜೆಂಟಿಕ್ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಸಕ್ರಿಯಗೊಳಿಸುತ್ತದೆ. - ಹೊಸ ಎಕ್ಸಿಕ್ಯೂಷನ್ ಮೋಡ್ಗಳು: ಡೆವಲಪರ್ಗಳು ಈಗ Flex mode (50% ವೆಚ್ಚ ಉಳಿತಾಯ) ಮತ್ತು Priority mode (ವೇಗಕ್ಕಾಗಿ ಉತ್ತಮಗೊಳಿಸಲಾಗಿದೆ) ನಡುವೆ ಆಯ್ಕೆ ಮಾಡಬಹುದು.
- ರಚನಾತ್ಮಕ ಬದಲಾವಣೆ: ಈ API "user/model" ರೋಲ್ ರಚನೆಯಿಂದ "typed steps" ಸ್ಕೀಮಾಗೆ ಬದಲಾಗುತ್ತಿದೆ, ಇದು ಸ್ವಾಯತ್ತ ಏಜೆಂಟ್ಗಳ ಬಹು-ಹಂತದ ಸ್ವರೂಪವನ್ನು ಉತ್ತಮವಾಗಿ ಪ್ರತಿಬಿಂಬಿಸುತ್ತದೆ.
