Gemini 3.5 Flash Artık Yerleşik Bilgisayar Kullanımına Sahip
Google, 24 Haziran 2026'da Gemini 3.5 Flash'ı güncelledi. Artık yerleşik bilgisayar kullanımı özelliğine sahip. Bu, modelin ekranlarla doğrudan etkileşime girebileceği anlamına geliyor.
Bu güncellemeden önce geliştiriciler bir seçim yapmak zorundaydı. Ekran kontrolü için ayrı bir model kullanmanız veya farklı modeller arasında karmaşık iş akışları kurmanız gerekiyordu. Bu da maliyet ve mühendislik iş yükünü artırıyordu.
Artık bilgisayar kullanımı standart bir araç. Onu tek bir adımda Search ve Maps ile birlikte çağırabilirsiniz.
Sizin için neler değişiyor:
- Tek seferlik çıkarım (inference) geçişi: Tek bir ajan, modeller arasında geçiş yapmadan web'de gezinebilir, kurumsal uygulamaları kullanabilir ve Maps'i kontrol edebilir.
- Daha geniş bağlam (context): Bağlam penceresi 128K'dan 1 milyon tokene yükseldi. Bu, uzun görevlerde yardımcı oluyor.
- Daha iyi muhakeme: Artık her eylem bir niyet (intent) alanı içeriyor. Modelin neden tıkladığını veya yazdığını açıklıyor. Bu, uyumluluk için bir denetim izi oluşturuyor.
- Daha düşük maliyetler: Gemini 3.5 Flash, milyon giriş token'ı başına 1,50 $ tutuyor. GPT-5.5 ise 5,00 $. Ölçeklendirme için Gemini çok daha ucuz.
Nasıl çalışır:
- Uygulamanız bir ekran görüntüsü alır.
- API, görüntüyü ve hedefinizi alır.
- Model bir UI öğesi seçer ve tıklama veya kaydırma gibi bir komut döndürür.
- Uygulamanız komutu yürütür ve işlemi tekrarlar.
Güvenlik büyük bir endişe kaynağı. Bir ajan, e-posta göndermek veya ödeme yapmak gibi geri döndürülemez eylemler gerçekleştirebilir. Google bunu yönetmek için katmanlar ekledi:
- Prompt injection'ı durdurmak için adversarial eğitim.
- Hassas eylemler için insan onayı.
- Finansal işlemler gibi belirli görevleri engellemek için yedi güvenlik kategorisi.
Model 20'den fazla eylem türünü destekliyor. Buna tarayıcılar, mobil ve masaüstü için tıklama, yazma, kaydırma ve sürükleme dahildir.
Benchmarklar ile gerçek dünya kullanımı arasındaki fark hala devam ediyor. Uygulamalar sık sık değişiyor ve kimlik doğrulama akışları karmaşık olabiliyor. Salt okunur görevlerle başlayın. Günlüklere (logs) güvendiğinizde, insan onayı gerektiren iş akışlarına geçin.
Bilgisayar kullanımı, premium bir eklentiden standart bir araca dönüşüyor.
İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi
