Gemini 3.5 Flash Kini Memiliki Fitur Native Computer Use
Google memperbarui Gemini 3.5 Flash pada 24 Juni 2026. Sekarang, model ini menyertakan fitur native computer use. Ini berarti model tersebut dapat berinteraksi dengan layar secara langsung.
Sebelum pembaruan ini, pengembang dihadapkan pada sebuah pilihan. Anda harus menggunakan model terpisah untuk kontrol layar atau membangun alur kerja (pipeline) yang kompleks di antara berbagai model. Hal ini menambah biaya dan beban kerja teknis.
Sekarang, computer use menjadi alat standar. Anda dapat memanggilnya bersamaan dengan Search dan Maps dalam satu langkah.
Apa yang berubah bagi Anda:
- Satu kali proses inferensi: Satu agen dapat menjelajahi web, menggunakan aplikasi perusahaan, dan memeriksa Maps tanpa harus berganti model.
- Konteks yang lebih besar: Jendela konteks meningkat dari 128K menjadi 1 juta token. Ini membantu dalam menangani tugas-tugas panjang.
- Penalaran yang lebih baik: Setiap tindakan kini menyertakan kolom niat (intent field). Ini menjelaskan mengapa model melakukan klik atau mengetik. Hal ini menciptakan jejak audit untuk kepatuhan (compliance).
- Biaya lebih rendah: Gemini 3.5 Flash berbiaya $1,50 per satu juta token input. GPT-5.5 berbiaya $5,00. Gemini jauh lebih murah untuk penskalaan (scaling).
Cara kerjanya:
- Aplikasi Anda mengambil tangkapan layar (screenshot).
- API menerima gambar dan tujuan Anda.
- Model memilih elemen UI dan mengembalikan perintah seperti klik atau gulir (scroll).
- Aplikasi Anda mengeksekusi perintah tersebut dan mengulangi prosesnya.
Keamanan adalah perhatian utama. Seorang agen dapat melakukan tindakan yang tidak dapat dibatalkan seperti mengirim email atau melakukan pembayaran. Google menambahkan beberapa lapisan untuk mengelola hal ini:
- Pelatihan adversarial untuk menghentikan prompt injection.
- Konfirmasi manusia untuk tindakan sensitif.
- Tujuh kategori keamanan untuk memblokir tugas-tugas tertentu seperti transaksi keuangan.
Model ini mendukung lebih dari 20 jenis tindakan. Ini mencakup klik, mengetik, menggulir, dan menyeret (dragging) untuk browser, seluler, dan desktop.
Kesenjangan antara benchmark dan penggunaan dunia nyata masih ada. Aplikasi sering berubah dan alur autentikasi cukup rumit. Mulailah dengan tugas-tugas read-only. Setelah Anda mempercayai log-nya, beralihlah ke alur kerja yang memerlukan persetujuan manusia.
Computer use sedang bertransformasi dari tambahan premium menjadi alat standar.
Komunitas pembelajaran opsional: https://t.me/GyaanSetuAi
