گوگل قابلیت کنترل کامپیوتر را در Gemini 3.5 Flash ادغام کرد
گوگل با ادغام قابلیتهای «استفاده از کامپیوتر» (Computer Use) مستقیماً در مدل Gemini 3.5 Flash، به نقطه عطف مهمی در زمینه هوش مصنوعی عاملمحور (agentic AI) دست یافته است. این بهروزرسانی به مدل اجازه میدهد تا صفحات نمایش کامپیوتر، مرورگرهای وب و دستگاههای موبایل را بهصورت آنی درک، تفسیر و با آنها تعامل داشته باشد و از چتهای مبتنی بر متن فراتر رفته و به مرحله اجرای دیجیتال فعال برسد.
از چتبات تا عامل خودمختار
پیش از این، قابلیت کار با رابط کاربری کامپیوتر محدود به مدل مجزای Gemini 2.5 بود که مانعی برای ادغام یکپارچه ایجاد میکرد. گوگل با گنجاندن مستقیم این قابلیت در Gemini 3.5 Flash، توسعهدهندگان را قادر میسازد تا عاملهای چندوجهی (multimodal) بسیار کارآمدی بسازند. این عاملها در صورت ترکیب با قابلیتهای موجود مانند function calling، Google Search و Maps، میتوانند جریانهای کاری پیچیده را در محیطهای دسکتاپ، موبایل و مرورگر مدیریت کنند. این امر مدل مذکور را به موتوری ایدهآل برای وظایف اتوماسیون در مقیاس بالا، مانند تست خودکار نرمافزار، مدیریت اداری پیچیده و ورود دادههای چندپلتفرمی تبدیل میکند.
محکزنی عملکرد: Gemini در برابر رقبا
تأثیر این ادغام در بنچمارک OSWorld، که توانایی هوش مصنوعی در کار با سیستم کامپیوتری را میسنجد، بیش از هر جای دیگری مشهود است. Gemini 3.5 Flash به امتیاز چشمگیر ۷۸.۴ دست یافت که نشاندهنده استدلال و اجرای برتر در مقایسه با بسیاری از رقبای این صنعت است.
برای درک بهتر، Gemini 3.5 Flash از Gemini 3 Flash (۶۵.۱) و GPT-5.4 mini (۷۲.۱) عملکرد بهتری داشت. اگرچه این مدل کمی از پیشرو بازار یعنی Anthropic Opus 4.8 (۸۳.۴) و با اختلاف بسیار اندک از GPT-5.5 (۷۸.۷) عقبتر است، اما همچنان بسیار رقابتی باقی مانده و با عملکرد Sonnet 4.6 (۷۸.۴) برابری کرده و از Gemini 3.1 Pro (۷۶.۲) پیشی گرفته است. این جایگاه رقابتی، Gemini 3.5 Flash را به انتخابی سطحبالا برای توسعهدهندگانی تبدیل میکند که به دنبال تعادل بین سرعت و تعامل پیچیده با کامپیوتر هستند.
امنیت و ایمنی در کنترل خودمختار
دادن کنترل رابط کاربری کاربر به یک LLM، خطرات امنیتی قابل توجهی را بهویژه در رابطه با حملات تزریق دستور (prompt injection) ایجاد میکند. برای کاهش این تهدیدها، گوگل آموزشهای تقابلی (adversarial training) سختگیرانهای را اجرا کرده و دو لایه حفاظتی متمایز در سطح سازمانی ارائه میدهد.
اولین لایه حفاظتی مستلزم تایید صریح کاربر است، پیش از آنکه مدل بتواند اقدامات حساس یا برگشتناپذیر، مانند حذف فایلها یا انجام تراکنشهای مالی را انجام دهد. لایه حفاظتی دوم در صورت تشخیص تلاش برای تزریق دستور غیرمستقیم توسط سیستم، هرگونه وظیفهای را بهطور خودکار متوقف میکند. فراتر از این ابزارهای داخلی، گوگل اکیداً به توسعهدهندگان توصیه میکند که از استراتژی «دفاع در عمق» (defense-in-depth) استفاده کنند که شامل ایزولهسازی (sandboxing) محیط عامل، حفظ نظارت انسانی و اجرای کنترلهای دسترسی سختگیرانه است.
در دسترس بودن و پیادهسازی
توسعهدهندگانی که به دنبال بهرهگیری از این قابلیتها هستند، میتوانند بلافاصله از طریق Gemini API و Gemini Enterprise Agent Platform به آنها دسترسی داشته باشند. برای تسریع فرآیند ساخت، گوگل یک پیادهسازی مرجع در GitHub و یک دموی Browserbase ارائه کرده است که نقشه راه روشنی برای ادغام کنترل خودمختار کامپیوتر در اکوسیستمهای نرمافزاری موجود فراهم میکند.
نکات کلیدی
- ادغام مستقیم: قابلیت کنترل کامپیوتر اکنون بهصورت بومی در Gemini 3.5 Flash تعبیه شده است که تعامل چندوجهی و یکپارچه با صفحات نمایش و مرورگرها را امکانپذیر میکند.
- بنچمارکهای بالا: با کسب امتیاز ۷۸.۴ در OSWorld، Gemini 3.5 Flash یک مدل با عملکرد برتر برای وظایف خودمختار کامپیوتری است و از GPT-5.4 mini پیشی گرفته است.
- امنیت سازمانی: گوگل خطرات عوامل خودمختار را از طریق آموزشهای تقابلی و لایههای حفاظتی اختیاری، مانند تایید اجباری کاربر برای اقدامات حساس، مدیریت میکند.
