Google、エージェントの新時代を切り拓くため Gemini を Interactions API へ移行
Google DeepMind は、すべての Gemini モデルおよびエージェントのデフォルトインターフェースとして Interactions API を正式に指定しました。これは、開発者が Google の AI を利用して構築する方法における根本的な転換を意味します。従来の generateContent インターフェースに代わることで、Google は単純な「テキスト入力/テキスト出力」のやり取りから、自律的なエージェント機能(autonomous agency)のために特別に設計された、複雑で多段階的なフレームワークへと軸足を移しています。
単純なチャットを超えて、自律型エージェントへ
生成 AI 時代の大部分において、開発者はステートレスなシングルターンの応答に最適化された generateContent メソッドに依存してきました。Interactions API への移行は、単に会話するだけでなく「行動する」システムである「エージェンティック AI(Agentic AI)」に対する Google のコミットメントを象徴しています。
Google のデベロッパーリレーションズ・リードである Logan Kilpatrick 氏によれば、この API は「エージェントの新時代への舞台を整えるもの」です。この転換により、独自の Linux サンドボックスを備えた Managed Agents など、これまで実装が困難だった機能が可能になります。これにより、モデルは安全で隔離された環境でコードを実行できるようになり、単に次のトークンを予測するだけでなく、複雑な計算タスクを実行することが可能になります。
高度な機能:ツールチェイニングとバックグラウンド実行
Interactions API は、Gemini をチャットボットから実用的なアシスタントへと変貌させる一連の高度な機能を提供します。主な技術的強化には以下が含まれます。
- ツールチェイニング(Tool Chaining): Google 検索や Google マップとのシームレスな統合により、エージェントは自身の行動を現実世界のデータに基づかせることができます。
- 長時間実行タスク(Long-running Tasks): API はバックグラウンド実行をサポートしており、クライアントからの継続的なアクティブ接続を必要とせずに、エージェントが複雑なワークフローに取り組むことができます。
- マルチモーダル生成(Multimodal Generation): 開発者は、エージェントのワークフローを通じて、画像、音楽、音声の生成を直接オーケストレーションできるようになります。
- 状態管理(State Management): API が多段階の推論の複雑さを処理するため、エージェントは多様なツールの使用や外部呼び出しにわたってコンテキストを維持できます。
簡素化されたスキーマと最適化された実行モード
Google はまた、開発者がより直感的に利用できるよう、API の技術アーキテクチャを合理化しました。従来のロールベースの構造(「user」や「model」といったラベルを使用)は、型定義された「ステップ(steps)」のシステムに置き換えられました。この新しいスキーマでは、ユーザーのプロンプトから関数呼び出し、その後のツール応答に至るまで、あらゆる個別の動作がシーケンス内の定義されたステップとして扱われます。
さまざまなアプリケーションの経済性とパフォーマンスのニーズに対応するため、Google は 2 つの異なる実行モードを導入しました。
- Flex Mode: コスト効率に最適化されており、大規模なタスクや緊急性の低いタスクを実行する開発者に対して、コストを 50% 削減します。
- Priority Mode: 低レイテンシに最適化されており、速度が重要なアプリケーションに対して、可能な限り高速な推論を保証します。
なぜこれが AI エコシステムにとって重要なのか
この動きは、業界が「チャットボット」フェーズを過ぎ、「エージェント」フェーズへと移行していることを示しています。ツールの使用、サンドボックス化された実行、および長時間実行されるプロセス向けに構築された API を標準化することで、Google は、ウェブの閲覧、ファイルの管理、コードの実行ができる自律型ソフトウェアに必要なインフラストラクチャを提供しています。開発者にとっては、状態管理に費やす時間が減り、複雑で信頼性の高い AI ワークフローの構築により多くの時間を割けるようになることを意味します。
主なポイント
- API の移行: Interactions API が Gemini のデフォルトとして
generateContentに代わり、Linux サンドボックスやツールチェイニングなどの高度なエージェント機能を実現します。 - 新しい実行モード: 開発者は、Flex モード(50% のコスト削減)と Priority モード(速度に最適化)を選択できるようになります。
- 構造的な転換: API は「user/model」というロール構造から「型定義されたステップ(typed steps)」スキーマへと移行し、自律型エージェントの多段階的な性質をより適切に反映するようになります。
