Google تدمج التحكم في الكمبيوتر ضمن Gemini 3.5 Flash
حققت Google إنجازاً هاماً في مجال الذكاء الاصطناعي الوكيل (agentic AI) من خلال دمج قدرات "استخدام الكمبيوتر" (Computer Use) مباشرة في نموذج Gemini 3.5 Flash. يتيح هذا التحديث للنموذج إدراك شاشات الكمبيوتر، ومتصفحات الويب، والأجهزة المحمولة، وتفسيرها والتفاعل معها في الوقت الفعلي، مما ينقله من مجرد دردشة نصية إلى مرحلة التنفيذ الرقمي النشط.
من روبوت دردشة إلى وكيل مستقل
في السابق، كانت القدرة على تشغيل واجهة الكمبيوتر مقتصرة على نموذج Gemini 2.5 منفصل، مما شكل عائقاً أمام التكامل السلس. ومن خلال دمج هذه الوظيفة مباشرة في Gemini 3.5 Flash، تمكن Google المطورين من بناء وكلاء متعددين الوسائط (multimodal agents) وعاليي الكفاءة. وعند دمج هذه القدرات مع الميزات الحالية مثل استدعاء الدوال (function calling)، وGoogle Search، وMaps، يمكن لهؤلاء الوكلاء التنقل عبر سير عمل معقد في بيئات سطح المكتب والمحمول والمتصفح. وهذا يجعل النموذج محركاً مثالياً لمهام الأتمتة واسعة النطاق، مثل اختبار البرمجيات المؤتمت، والإدارة المكتبية المعقدة، وإدخال البيانات عبر المنصات المختلفة.
قياس الأداء: Gemini مقابل المنافسين
يظهر تأثير هذا التكامل بشكل جلي في معيار OSWorld، الذي يقيس قدرة الذكاء الاصطناعي على تشغيل نظام الكمبيوتر. وقد حقق Gemini 3.5 Flash درجة مذهلة بلغت 78.4، مما أظهر قدرات فائقة في الاستنتاج والتنفيذ مقارنة بالعديد من المنافسين في هذا المجال.
ولتوضيح السياق، تفوق Gemini 3.5 Flash على Gemini 3 Flash (65.1) وGPT-5.4 mini (72.1). ورغم أنه يتأخر قليلاً عن الرائد في هذا المجال Anthropic Opus 4.8 (83.4) وبفارق ضئيل جداً عن GPT-5.5 (78.7)، إلا أنه يظل منافساً قوياً، حيث يضاهي أداء Sonnet 4.6 (78.4) ويتفوق على Gemini 3.1 Pro (76.2). هذا الموقع التنافسي يبرز Gemini 3.5 Flash كخيار من الدرجة الأولى للمطورين الذين يبحثون عن توازن بين السرعة والتفاعل المتطور مع الكمبيوتر.
الأمن والسلامة في التحكم المستقل
إن منح نموذج لغوي كبير (LLM) القدرة على التحكم في واجهة المستخدم يفرض مخاطر أمنية كبيرة، لا سيما فيما يتعلق بهجمات حقن الأوامر (prompt injection attacks). وللتخفيف من هذه التهديدات، طبقت Google تدريباً خصومياً (adversarial training) صارماً، وتوفر وسيلتين مختلفتين من الضمانات المخصصة للمؤسسات.
تتطلب الضمانة الأولى تأكيداً صريحاً من المستخدم قبل أن يتمكن النموذج من تنفيذ إجراءات حساسة أو غير قابلة للتراجع، مثل حذف الملفات أو إجراء معاملات مالية. أما الضمانة الثانية، فتقوم بإيقاف أي مهمة تلقائياً إذا اكتشف النظام محاولة حقن أوامر غير مباشرة. وإلى جانب هذه الأدوات المدمجة، تنصح Google المطورين بشدة بتبني استراتيجية "الدفاع المتعمق" (defense-in-depth)، والتي تشمل عزل بيئة الوكيل (sandboxing)، والحفاظ على الإشراف البشري، وتطبيق ضوابط صارمة للوصول.
التوفر والتنفيذ
يمكن للمطورين الراغبين في الاستفادة من هذه القدرات الوصول إليها فوراً عبر Gemini API ومنصة Gemini Enterprise Agent Platform. ولتسريع عملية البناء، وفرت Google نموذجاً مرجعياً على GitHub وعرضاً توضيحياً عبر Browserbase، مما يوفر خارطة طريق واضحة لدمج التحكم المستقل في الكمبيوتر ضمن الأنظمة البرمجية الحالية.
النقاط الرئيسية
- التكامل المباشر: أصبح التحكم في الكمبيوتر مدمجاً بشكل أصيل في Gemini 3.5 Flash، مما يتيح تفاعلاً سلساً متعدد الوسائط مع الشاشات والمتصفحات.
- نتائج اختبارات عالية: مع حصوله على درجة 78.4 في اختبار OSWorld، يعد Gemini 3.5 Flash نموذجاً عالي الأداء لمهام الكمبيوتر المستقلة، متفوقاً على GPT-5.4 mini.
- أمن المؤسسات: تعالج Google مخاطر الوكلاء المستقلين من خلال التدريب الخصومي والضمانات الاختيارية مثل التأكيد الإلزامي من المستخدم للإجراءات الحساسة.
