Google、Gemini 3.5 Flashにコンピュータ制御機能を統合

Translated for your language. 原文を読む.

AI-assisted draft.

Google、Gemini 3.5 Flashにコンピュータ操作機能を統合

Googleは、Gemini 3.5 Flashモデルに「Computer Use（コンピュータ操作）」機能を直接統合することで、エージェンティックAI（agentic AI）における重要な節目を迎えました。このアップデートにより、モデルはコンピュータの画面、ウェブブラウザ、モバイルデバイスをリアルタイムで認識、解釈、操作できるようになり、テキストベースのチャットを超えた、能動的なデジタル実行が可能になります。

チャットボットから自律型エージェントへ

これまで、コンピュータインターフェースを操作する機能は別のGemini 2.5モデルに限定されており、シームレスな統合の障壁となっていました。この機能をGemini 3.5 Flashに直接組み込むことで、Googleは開発者が非常に効率的なマルチモーダル・エージェントを構築できるようにしています。function calling、Google Search、Mapsといった既存の機能と組み合わせることで、これらのエージェントはデスクトップ、モバイル、ブラウザ環境にわたる複雑なワークフローをナビゲートできます。これにより、自動ソフトウェアテスト、複雑な事務管理、クロスプラットフォームのデータ入力など、大規模な自動化タスクに理想的なエンジンとなります。

パフォーマンスのベンチマーク：Gemini vs. 競合他社

この統合の影響は、AIのコンピュータシステム操作能力を測定するOSWorldベンチマークにおいて最も顕著に現れています。Gemini 3.5 Flashは78.4という驚異的なスコアを達成し、業界の多くの競合他社と比較して優れた推論能力と実行能力を示しました。

参考までに、Gemini 3.5 FlashはGemini 3 Flash (65.1) や GPT-5.4 mini (72.1) を上回りました。業界リーダーであるAnthropic Opus 4.8 (83.4) や、僅差のGPT-5.5 (78.7) にはわずかに及びませんが、Sonnet 4.6 (78.4) と同等のパフォーマンスを示し、Gemini 3.1 Pro (76.2) を上回るなど、非常に高い競争力を維持しています。この競争力のあるポジショニングにより、Gemini 3.5 Flashは、スピードと高度なコンピュータ操作のバランスを求める開発者にとって、トップティアの選択肢であることが浮き彫りになりました。

自律制御におけるセキュリティと安全性

LLMにユーザーインターフェースの制御権を与えることは、特にプロンプトインジェクション攻撃に関して、重大なセキュリティリスクをもたらします。これらの脅威を軽減するため、Googleは厳格な敵対的学習（adversarial training）を実施しており、2つの異なるエンタープライズグレードのセーフガードを提供しています。

1つ目のセーフガードは、ファイルの削除や金融取引などの機密性の高い、あるいは取り消し不可能なアクションをモデルが実行する前に、ユーザーによる明示的な確認を必要とするものです。2つ目のセーフガードは、システムが間接的なプロンプトインジェクションの試みを検知した場合、タスクを自動的に停止します。これらの組み込みツールに加え、Googleは開発者に対し、エージェントの環境のサンドボックス化、人間による監視の維持、厳格なアクセス制御の実施など、「多層防御（defense-in-depth）」戦略を採用することを強く推奨しています。

利用可能性と実装

これらの機能を活用したい開発者は、Gemini APIおよびGemini Enterprise Agent Platformを通じて、すぐに利用を開始できます。構築プロセスを加速させるため、GoogleはGitHubのリファレンス実装とBrowserbaseのデモを提供しており、既存のソフトウェアエコシステムに自律的なコンピュータ操作を統合するための明確なロードマップを提示しています。

主なポイント

直接統合: コンピュータ操作機能がGemini 3.5 Flashにネイティブに組み込まれ、画面やブラウザとのシームレスなマルチモーダル・インタラクションが可能になりました。
高いベンチマークスコア: OSWorldで78.4のスコアを記録したGemini 3.5 Flashは、自律的なコンピュータタスクにおいてGPT-5.4 miniを上回るトップクラスのパフォーマンスを持つモデルです。
エンタープライズセキュリティ: Googleは、敵対的学習や、機密性の高いアクションに対するユーザー確認の義務化といったオプションのセーフガードを通じて、自律型エージェントのリスクに対処しています。

Google、Gemini 3.5 Flashにコンピュータ制御機能を統合

Google、Gemini 3.5 Flashにコンピュータ操作機能を統合

チャットボットから自律型エージェントへ

パフォーマンスのベンチマーク：Gemini vs. 競合他社

自律制御におけるセキュリティと安全性

利用可能性と実装

主なポイント

続きを読む

Google DeepMindの新しいAI制御ロードマップ：エージェントを内部脅威として扱う

Google、エージェントの新時代を切り拓くためGeminiをInteractions APIへ移行

Google、Geminiエージェント構築の標準としてInteractions APIを採用

Gemini Interactions API: 究極の移行ガイド

Gemini 3.5 Flashがネイティブなコンピュータ操作機能を搭載