Google Mengintegrasikan Kawalan Komputer ke dalam Gemini 3.5 Flash
Google telah mencapai pencapaian penting dalam AI ejen dengan mengintegrasikan keupayaan "Computer Use" secara terus ke dalam model Gemini 3.5 Flash. Kemas kini ini membolehkan model tersebut melihat, mentafsir, dan berinteraksi dengan skrin komputer, pelayar web, dan peranti mudah alih secara masa nyata, beralih daripada sembang berasaskan teks kepada pelaksanaan digital yang aktif.
Daripada Chatbot kepada Ejen Autonomi
Sebelum ini, keupayaan untuk mengendalikan antara muka komputer dihadkan kepada model Gemini 2.5 yang berasingan, sekali gus mewujudkan halangan untuk integrasi yang lancar. Dengan menyerapkan fungsi ini secara terus ke dalam Gemini 3.5 Flash, Google membolehkan pembangun membina ejen multimodal yang sangat cekap. Apabila digabungkan dengan keupayaan sedia ada seperti function calling, Google Search, dan Maps, ejen-ejen ini boleh mengemudi aliran kerja yang kompleks merentasi persekitaran desktop, mudah alih, dan pelayar. Ini menjadikan model tersebut enjin yang ideal untuk tugas automasi berskala tinggi, seperti pengujian perisian automatik, pentadbiran pejabat yang kompleks, dan kemasukan data rentas platform.
Penandaarasan Prestasi: Gemini lwn. Pesaing Lain
Impak integrasi ini paling ketara dalam penandaarasan OSWorld, yang mengukur keupayaan AI untuk mengendalikan sistem komputer. Gemini 3.5 Flash mencapai skor yang mengagumkan iaitu 78.4, menunjukkan penaakulan dan pelaksanaan yang unggul berbanding kebanyakan pesaing industri yang lain.
Sebagai konteks, Gemini 3.5 Flash mengatasi prestasi Gemini 3 Flash (65.1) dan GPT-5.4 mini (72.1). Walaupun ia sedikit ketinggalan di belakang peneraju industri Anthropic Opus 4.8 (83.4) dan margin tipis GPT-5.5 (78.7), ia kekal sangat kompetitif, menyamai prestasi Sonnet 4.6 (78.4) dan mengatasi Gemini 3.1 Pro (76.2). Kedudukan kompetitif ini menonjolkan Gemini 3.5 Flash sebagai pilihan tahap tinggi bagi pembangun yang mencari keseimbangan antara kelajuan dan interaksi komputer yang canggih.
Keselamatan dan Perlindungan dalam Kawalan Autonomi
Memberikan kawalan antara muka pengguna kepada LLM memperkenalkan risiko keselamatan yang ketara, terutamanya berkaitan serangan prompt injection. Untuk mengurangkan ancaman ini, Google telah melaksanakan latihan adversarial yang ketat dan menawarkan dua perlindungan gred perusahaan yang berbeza.
Perlindungan pertama memerlukan pengesahan pengguna secara eksplisit sebelum model boleh melakukan tindakan sensitif atau tidak boleh diubah, seperti memadam fail atau melakukan transaksi kewangan. Perlindungan kedua akan menghentikan sebarang tugas secara automatik jika sistem mengesan percubaan indirect prompt injection. Selain daripada alatan terbina dalam ini, Google amat menyarankan pembangun untuk mengguna pakai strategi "defense-in-depth", yang merangkumi sandboxing persekitaran ejen, mengekalkan pengawasan manusia, dan melaksanakan kawalan akses yang ketat.
Ketersediaan dan Pelaksanaan
Pembangun yang ingin memanfaatkan keupayaan ini boleh mengaksesnya dengan segera melalui Gemini API dan Gemini Enterprise Agent Platform. Untuk mempercepatkan proses pembinaan, Google telah menyediakan pelaksanaan rujukan GitHub dan demo Browserbase, yang menawarkan pelan hala tuju yang jelas untuk mengintegrasikan kawalan komputer autonomi ke dalam ekosistem perisian sedia ada.
Ringkasan Utama
- Integrasi Terus: Kawalan komputer kini tertanam secara asli dalam Gemini 3.5 Flash, membolehkan interaksi multimodal yang lancar dengan skrin dan pelayar.
- Penandaarasan Tinggi: Dengan skor OSWorld sebanyak 78.4, Gemini 3.5 Flash adalah model berprestasi tinggi untuk tugas komputer autonomi, mengatasi GPT-5.4 mini.
- Keselamatan Perusahaan: Google menangani risiko ejen autonomi melalui latihan adversarial dan perlindungan pilihan seperti pengesahan pengguna mandatori untuk tindakan sensitif.
