Gemini 3.5 Flash がネイティブなコンピュータ操作に対応
Googleは2026年6月24日にGemini 3.5 Flashをアップデートしました。これにより、ネイティブなコンピュータ操作(computer use)が可能になりました。つまり、モデルが画面と直接やり取りできるようになります。
このアップデート以前、開発者は選択を迫られていました。画面制御のために別のモデルを使用するか、異なるモデル間で複雑なパイプラインを構築する必要がありました。これはコストとエンジニアリングの手間を増大させていました。
現在、コンピュータ操作は標準的なツールとなっています。SearchやMapsと並行して、単一のステップで呼び出すことができます。
あなたにとって何が変わるのか:
- 単一の推論パス:1つのエージェントが、モデルを切り替えることなく、ウェブの閲覧、エンタープライズアプリの使用、Mapsの確認を行うことができます。
- コンテキストの拡大:コンテキストウィンドウが128Kから100万トークンに拡大しました。これにより、長時間のタスクが容易になります。
- 推論能力の向上:すべての操作に「意図(intent)」フィールドが含まれるようになりました。モデルがなぜクリックやタイピングを行ったのかを説明するため、コンプライアンスのための監査証跡(audit trail)を作成できます。
- コストの削減:Gemini 3.5 Flashのコストは、入力トークン100万件あたり1.50ドルです。GPT-5.5は5.00ドルです。スケーリングにおいて、Geminiは大幅に安価です。
仕組み:
- アプリがスクリーンショットを撮ります。
- APIが画像と目標を受け取ります。
- モデルがUI要素を選択し、クリックやスクロールなどのコマンドを返します。
- アプリがコマンドを実行し、プロセスを繰り返します。
安全性は大きな懸念事項です。エージェントは、メールの送信や支払いの実行といった、取り消し不可能な操作を行う可能性があります。Googleはこれを管理するために、以下のレイヤーを追加しました。
- プロンプトインジェクションを防ぐための敵対的学習(Adversarial training)。
- 機密性の高い操作に対する人間の確認。
- 金融取引などの特定のタスクをブロックするための7つの安全カテゴリ。
このモデルは20種類以上の操作タイプをサポートしています。これには、ブラウザ、モバイル、デスクトップにおけるクリック、タイピング、スクロール、ドラッグが含まれます。
ベンチマークと実世界での利用の間には、依然としてギャップが存在します。アプリは頻繁に変更され、認証フローは複雑です。まずは読み取り専用のタスクから始めてください。ログを信頼できるようになったら、人間の承認を必要とするワークフローへと移行しましょう。
コンピュータ操作は、プレミアムなアドオンから標準的なツールへと移行しつつあります。
オプションの学習コミュニティ: https://t.me/GyaanSetuAi
