Google, Bilgisayar Kontrolünü Gemini 3.5 Flash'a Entegre Ediyor

Google, "Computer Use" (Bilgisayar Kullanımı) yeteneklerini doğrudan Gemini 3.5 Flash modeline entegre ederek ajan tabanlı (agentic) yapay zekada önemli bir dönüm noktasına ulaştı. Bu güncelleme, modelin bilgisayar ekranlarını, web tarayıcılarını ve mobil cihazları gerçek zamanlı olarak algılamasına, yorumlamasına ve bunlarla etkileşime girmesine olanak tanıyarak metin tabanlı sohbetin ötesine geçip aktif dijital yürütme aşamasına geçmesini sağlıyor.

Sohbet Robotundan Otonom Ajanlara

Daha önce, bir bilgisayar arayüzünü çalıştırma yeteneği ayrı bir Gemini 2.5 modeliyle sınırlıydı ve bu durum sorunsuz entegrasyonun önünde bir engel oluşturuyordu. Google, bu işlevselliği doğrudan Gemini 3.5 Flash'ın içine yerleştirerek geliştiricilerin son derece verimli, çok modlu (multimodal) ajanlar oluşturmasına olanak tanıyor. Function calling, Google Search ve Maps gibi mevcut yeteneklerle birleştirildiğinde, bu ajanlar masaüstü, mobil ve tarayıcı ortamlarındaki karmaşık iş akışlarında gezinebilirler. Bu durum, modeli otomatik yazılım testi, karmaşık ofis yönetimi ve platformlar arası veri girişi gibi yüksek ölçekli otomasyon görevleri için ideal bir motor haline getiriyor.

Performans Kıyaslaması: Gemini ve Rakipleri

Bu entegrasyonun etkisi, bir yapay zekanın bir bilgisayar sistemini çalıştırma yeteneğini ölçen OSWorld kıyaslamasında (benchmark) en belirgin şekilde görülmektedir. Gemini 3.5 Flash, 78,4 gibi etkileyici bir puan alarak birçok sektördeki rakibine kıyasla üstün muhakeme ve yürütme yeteneği sergiledi.

Bağlam sağlamak gerekirse, Gemini 3.5 Flash; Gemini 3 Flash (65,1) ve GPT-5.4 mini (72,1) modellerinden daha iyi performans gösterdi. Sektör lideri Anthropic Opus 4.8 (83,4) ve çok küçük bir farkla önde olan GPT-5.5'in (78,7) biraz gerisinde kalsa da, Sonnet 4.6 (78,4) ile benzer performans sergileyerek ve Gemini 3.1 Pro'yu (76,2) geride bırakarak oldukça rekabetçi kalmaya devam ediyor. Bu rekabetçi konumlandırma, Gemini 3.5 Flash'ı hız ile gelişmiş bilgisayar etkileşimi arasında bir denge arayan geliştiriciler için üst düzey bir seçenek olarak öne çıkarıyor.

Otonom Kontrolde Güvenlik ve Emniyet

Bir LLM'e kullanıcının arayüzü üzerinde kontrol vermek, özellikle "prompt injection" (istem enjeksiyonu) saldırılarıyla ilgili olarak önemli güvenlik riskleri doğurur. Google, bu tehditleri azaltmak için titiz bir adversarial training (çekişmeli eğitim) uygulamış ve iki farklı kurumsal düzeyde koruma yöntemi sunmuştur.

İlk koruma yöntemi, modelin dosya silme veya finansal işlem yapma gibi hassas veya geri alınamaz eylemleri gerçekleştirmeden önce kullanıcının açık onayını gerektirir. İkinci koruma yöntemi ise sistem bir dolaylı prompt injection girişimi tespit ederse herhangi bir görevi otomatik olarak durdurur. Bu yerleşik araçların ötesinde Google, geliştiricilere ajanın ortamını sandboxing (kum havuzuna alma) yöntemiyle izole etmeyi, insan denetimini sürdürmeyi ve sıkı erişim kontrolleri uygulamayı içeren bir "derinlemesine savunma" (defense-in-depth) stratejisi benimsemelerini şiddetle tavsiye eder.

Erişilebilirlik ve Uygulama

Bu yeteneklerden yararlanmak isteyen geliştiriciler, Gemini API ve Gemini Enterprise Agent Platform aracılığıyla bunlara hemen erişebilirler. Google, oluşturma sürecini hızlandırmak için bir GitHub referans uygulaması ve bir Browserbase demosu sunarak, otonom bilgisayar kontrolünü mevcut yazılım ekosistemlerine entegre etmek için net bir yol haritası sağlamıştır.

Önemli Çıkarımlar

  • Doğrudan Entegrasyon: Bilgisayar kontrolü artık yerel olarak Gemini 3.5 Flash'a gömülüdür ve ekranlar ile tarayıcılarla sorunsuz çok modlu etkileşimi mümkün kılar.
  • Yüksek Kıyaslama Puanları: 78,4'lük OSWorld puanıyla Gemini 3.5 Flash, otonom bilgisayar görevleri için GPT-5.4 mini'den daha iyi performans gösteren, üst düzey bir modeldir.
  • Kurumsal Güvenlik: Google, otonom ajanların risklerini, adversarial training ve hassas eylemler için zorunlu kullanıcı onayı gibi isteğe bağlı koruma yöntemleriyle ele almaktadır.