Gemini 3.5 Flash verfügt nun über native Computer-Nutzung

Google hat Gemini 3.5 Flash am 24. Juni 2026 aktualisiert. Es enthält nun native Computer-Nutzung. Das bedeutet, dass das Modell direkt mit Bildschirmen interagieren kann.

Vor diesem Update standen Entwickler vor einer Wahl. Man musste entweder ein separates Modell für die Bildschirmsteuerung verwenden oder komplexe Pipelines zwischen verschiedenen Modellen aufbauen. Dies erhöhte die Kosten und den Engineering-Aufwand.

Jetzt ist die Computer-Nutzung ein Standard-Tool. Sie kann in einem einzigen Schritt zusammen mit Search und Maps aufgerufen werden.

Was sich für Sie ändert:

  • Ein einziger Inference-Durchlauf: Ein Agent kann im Web surfen, Enterprise-Apps nutzen und Maps prüfen, ohne das Modell zu wechseln.
  • Größerer Kontext: Das Fenster wurde von 128K auf 1 Million Token erweitert. Dies hilft bei langen Aufgaben.
  • Besseres Reasoning: Jede Aktion enthält nun ein Intent-Feld. Es erklärt, warum das Modell geklickt oder getippt hat. Dies erstellt einen Audit-Trail für die Compliance.
  • Niedrigere Kosten: Gemini 3.5 Flash kostet 1,50 $ pro Million Input-Token. GPT-5.5 kostet 5,00 $. Gemini ist für die Skalierung wesentlich günstiger.

So funktioniert es:

  • Ihre App macht einen Screenshot.
  • Die API erhält das Bild und Ihr Ziel.
  • Das Modell wählt ein UI-Element aus und gibt einen Befehl wie einen Klick oder ein Scrollen zurück.
  • Ihre App führt den Befehl aus und wiederholt den Vorgang.

Sicherheit ist ein großes Anliegen. Ein Agent kann irreversible Aktionen ausführen, wie das Versenden von E-Mails oder das Tätigen von Zahlungen. Google hat zusätzliche Ebenen hinzugefügt, um dies zu steuern:

  • Adversarial Training, um Prompt Injection zu verhindern.
  • Menschliche Bestätigung für sensible Aktionen.
  • Sieben Sicherheitskategorien, um spezifische Aufgaben wie Finanztransaktionen zu blockieren.

Das Modell unterstützt über 20 Aktionstypen. Dies umfasst Klicken, Tippen, Scrollen und Ziehen für Browser, Mobilgeräte und Desktop.

Die Lücke zwischen Benchmarks und der realen Nutzung bleibt bestehen. Apps ändern sich häufig und Authentifizierungsabläufe sind knifflig. Beginnen Sie mit Read-only-Aufgaben. Sobald Sie den Logs vertrauen, können Sie zu Workflows übergehen, die eine menschliche Genehmigung erfordern.

Die Computer-Nutzung entwickelt sich von einem Premium-Add-on zu einem Standard-Tool.

Quelle: https://dev.to/prabhakar_chaudhary_7afe4/gemini-35-flash-now-has-native-computer-use-heres-what-that-actually-changes-ol0

Optionale Lern-Community: https://t.me/GyaanSetuAi