معيار جديد لمهام السحابة
أداء الذكاء الاصطناعي غير متكافئ. قد يتصدر نموذج ما معايير البرمجة ولكنه يفشل في العمل السحابي، وغالباً ما يبتكر موارد غير موجودة.
تغطي المعايير الحالية البرمجة والاستنتاج، ولكن لا يوجد معيار حالي لمهام إدارة السحابة.
نحن بصدد بناء هذا المعيار.
نحن نختبر أدوات مثل Codex و Claude Code. اختبارنا الأول يعمل على AWS، وسنستخدم نموذجاً (template) يعمل مع Azure و GCP لاحقاً.
منهجيتنا
نستخدم البنية التحتية كبرمجية (IaC) كمفتاح للإجابة. يقوم Terraform ببناء الموارد، وتوفر مخرجاته الحقيقة المطلقة؛ فنحن نعرف معرفات الموارد (resource IDs) الدقيقة التي يجب أن تكون موجودة، مما يلغي الخطأ البشري. يمكن لأي شخص تشغيل نفس المجموعة (stack) للحصول على نفس النتيجة.
نحن نختبر متغيرين:
• الحجم: حسابات صغيرة، وحسابات متوسطة، وحسابات كبيرة تحتوي على آلاف التبعيات. • السجل (History): حسابات جديدة تعتمد كلياً على IaC، وحسابات قديمة تحتوي على وسوم (tags) غير منظمة وتغييرات يدوية.
الأداة التي تعمل فقط على الحسابات الصغيرة والنظيفة ستفشل في بيئات الإنتاج الحقيقية.
نحن نحافظ على حصر الوكيل (agent). فهو يعمل في حاوية (container) واحدة مع صلاحيات القراءة فقط. ونستخدم CloudTrail لتتبع كل إجراء. كما نكرر كل اختبار ثلاث مرات لاستبعاد أخطاء الشبكة.
نحن نصنف كل إجابة خاطئة:
- وجدها (Found): رأى الوكيل المورد.
- أغفلها (Missed): فشل الوكيل في رؤيتها.
- أبلغ عنها (Flagged): أبلغ الوكيل عن مورد مستخدم بالفعل.
- اختلقها (Fabricated): ابتكر الوكيل معرف مورد (resource ID) غير موجود.
تركز مهمتنا الأولى على اكتشاف الهدر في AWS. نستخدم Terraform لإنشاء وحدات تخزين غير متصلة (unattached volumes) وعناوين IP غير مستخدمة. كما نضيف موارد نشطة لنرى ما إذا كان الوكيل سيرتكب أخطاءً.
اكتشاف الهدر هو الاختبار الأول لأنه يوفر المال وله نتائج (scores) واضحة. ستغطي الاختبارات المستقبلية عمليات التدقيق الأمني وإعادة بناء البنية التحتية (architecture reconstruction).
سننشر عمليتنا الكاملة، بما في ذلك السجلات الخام (raw logs) والمطالبات (prompts). وسنشارك النتائج حتى لو كانت سيئة.
نحتاج إلى ملاحظاتكم.
أين تكمن نقاط ضعف هذه الطريقة؟ ما الذي يجعل الاختبار يبدو كحساب حقيقي؟ ما هي المهمة التي يجب أن نختبرها تالياً؟
المصدر: https://dev.to/rachcorp/new-benchmark-for-cloud-tasks-4o1
مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi
