گوگل قابلیت کنترل کامپیوتر را در Gemini 3.5 Flash ادغام کرد

گوگل با ادغام قابلیت‌های «استفاده از کامپیوتر» (Computer Use) مستقیماً در مدل Gemini 3.5 Flash، به نقطه عطف مهمی در زمینه هوش مصنوعی عامل‌محور (agentic AI) دست یافته است. این به‌روزرسانی به مدل اجازه می‌دهد تا صفحات نمایش کامپیوتر، مرورگرهای وب و دستگاه‌های موبایل را به‌صورت آنی درک، تفسیر و با آن‌ها تعامل داشته باشد و از چت‌های مبتنی بر متن فراتر رفته و به مرحله اجرای دیجیتال فعال برسد.

از چت‌بات تا عامل خودمختار

پیش از این، قابلیت کار با رابط کاربری کامپیوتر محدود به مدل مجزای Gemini 2.5 بود که مانعی برای ادغام یکپارچه ایجاد می‌کرد. گوگل با گنجاندن مستقیم این قابلیت در Gemini 3.5 Flash، توسعه‌دهندگان را قادر می‌سازد تا عامل‌های چندوجهی (multimodal) بسیار کارآمدی بسازند. این عامل‌ها در صورت ترکیب با قابلیت‌های موجود مانند function calling، Google Search و Maps، می‌توانند جریان‌های کاری پیچیده را در محیط‌های دسکتاپ، موبایل و مرورگر مدیریت کنند. این امر مدل مذکور را به موتوری ایده‌آل برای وظایف اتوماسیون در مقیاس بالا، مانند تست خودکار نرم‌افزار، مدیریت اداری پیچیده و ورود داده‌های چندپلتفرمی تبدیل می‌کند.

محک‌زنی عملکرد: Gemini در برابر رقبا

تأثیر این ادغام در بنچمارک OSWorld، که توانایی هوش مصنوعی در کار با سیستم کامپیوتری را می‌سنجد، بیش از هر جای دیگری مشهود است. Gemini 3.5 Flash به امتیاز چشمگیر ۷۸.۴ دست یافت که نشان‌دهنده استدلال و اجرای برتر در مقایسه با بسیاری از رقبای این صنعت است.

برای درک بهتر، Gemini 3.5 Flash از Gemini 3 Flash (۶۵.۱) و GPT-5.4 mini (۷۲.۱) عملکرد بهتری داشت. اگرچه این مدل کمی از پیشرو بازار یعنی Anthropic Opus 4.8 (۸۳.۴) و با اختلاف بسیار اندک از GPT-5.5 (۷۸.۷) عقب‌تر است، اما همچنان بسیار رقابتی باقی مانده و با عملکرد Sonnet 4.6 (۷۸.۴) برابری کرده و از Gemini 3.1 Pro (۷۶.۲) پیشی گرفته است. این جایگاه رقابتی، Gemini 3.5 Flash را به انتخابی سطح‌بالا برای توسعه‌دهندگانی تبدیل می‌کند که به دنبال تعادل بین سرعت و تعامل پیچیده با کامپیوتر هستند.

امنیت و ایمنی در کنترل خودمختار

دادن کنترل رابط کاربری کاربر به یک LLM، خطرات امنیتی قابل توجهی را به‌ویژه در رابطه با حملات تزریق دستور (prompt injection) ایجاد می‌کند. برای کاهش این تهدیدها، گوگل آموزش‌های تقابلی (adversarial training) سخت‌گیرانه‌ای را اجرا کرده و دو لایه حفاظتی متمایز در سطح سازمانی ارائه می‌دهد.

اولین لایه حفاظتی مستلزم تایید صریح کاربر است، پیش از آنکه مدل بتواند اقدامات حساس یا برگشت‌ناپذیر، مانند حذف فایل‌ها یا انجام تراکنش‌های مالی را انجام دهد. لایه حفاظتی دوم در صورت تشخیص تلاش برای تزریق دستور غیرمستقیم توسط سیستم، هرگونه وظیفه‌ای را به‌طور خودکار متوقف می‌کند. فراتر از این ابزارهای داخلی، گوگل اکیداً به توسعه‌دهندگان توصیه می‌کند که از استراتژی «دفاع در عمق» (defense-in-depth) استفاده کنند که شامل ایزوله‌سازی (sandboxing) محیط عامل، حفظ نظارت انسانی و اجرای کنترل‌های دسترسی سخت‌گیرانه است.

در دسترس بودن و پیاده‌سازی

توسعه‌دهندگانی که به دنبال بهره‌گیری از این قابلیت‌ها هستند، می‌توانند بلافاصله از طریق Gemini API و Gemini Enterprise Agent Platform به آن‌ها دسترسی داشته باشند. برای تسریع فرآیند ساخت، گوگل یک پیاده‌سازی مرجع در GitHub و یک دموی Browserbase ارائه کرده است که نقشه راه روشنی برای ادغام کنترل خودمختار کامپیوتر در اکوسیستم‌های نرم‌افزاری موجود فراهم می‌کند.

نکات کلیدی

  • ادغام مستقیم: قابلیت کنترل کامپیوتر اکنون به‌صورت بومی در Gemini 3.5 Flash تعبیه شده است که تعامل چندوجهی و یکپارچه با صفحات نمایش و مرورگرها را امکان‌پذیر می‌کند.
  • بنچمارک‌های بالا: با کسب امتیاز ۷۸.۴ در OSWorld، Gemini 3.5 Flash یک مدل با عملکرد برتر برای وظایف خودمختار کامپیوتری است و از GPT-5.4 mini پیشی گرفته است.
  • امنیت سازمانی: گوگل خطرات عوامل خودمختار را از طریق آموزش‌های تقابلی و لایه‌های حفاظتی اختیاری، مانند تایید اجباری کاربر برای اقدامات حساس، مدیریت می‌کند.