لماذا تقلل معايير تقييم الذكاء الاصطناعي القياسية بشكل منهجي من قدرات الوكلاء
تفشل أساليب تقييم الذكاء الاصطناعي الحالية في استيعاب الإمكانات الحقيقية للنماذج الرائدة، وغالبًا ما تخلط بين نقص الميزانية الحسابية ونقص الذكاء. وقد كشف معهد أمن الذكاء الاصطناعي (AISI) في المملكة المتحدة أن أداء وكيل الذكاء الاصطناعي ليس درجة ثابتة، بل هو منحنى توسع يرتفع بشكل حاد مع زيادة الحوسبة أثناء الاختبار (test-time compute).
منحنى الحوسبة والقدرة
النتيجة المركزية لأبحاث AISI هي أن معدل نجاح وكيل الذكاء الاصطناعي مرتبط ارتباطًا وثيقًا بـ "الحوسبة أثناء الاختبار" (test-time compute) — أي مقدار قوة المعالجة والرموز (tokens) المسموح للوكيل باستخدامها أثناء العمل على مهمة ما. عندما يضع الباحثون حدودًا ثابتة للميزانية في التقييمات، فإنهم يقيسون الحد الأدنى لقدرة النموذج بدلاً من إمكاناته القصوى.
تظهر هذه الظاهرة في العديد من المجالات ذات الأهمية البالغة. ففي مهام هندسة البرمجيات باستخدام معايير مثل TerminalBench 2.0 و SWE-Bench Pro، ارتفعت معدلات النجاح بنسبة 25% تقريبًا عندما تمت زيادة ميزانية الرموز من مليون إلى عشرة ملايين رمز. وبالمثل، شهدت المهام الرياضية والأكاديمية في "Humanity's Last Exam" زيادة بنسبة 22% عندما وصلت الميزانية إلى خمسة ملايين رمز.
قانون القوة بين وقت المهمة للبشر مقابل الذكاء الاصطناعي
أثبتت الدراسة وجود علاقة مباشرة بين الوقت الذي يحتاجه خبير بشري لإنجاز مهمة ما واستهلاك الرموز المطلوب من وكيل الذكاء الاصطناعي. تتبع هذه العلاقة قانون القوة (power law): فالمهمة التي تستغرق من الإنسان دقيقة واحدة تكلف الوكيل آلاف الرموز، بينما تكلف المهمة التي تستغرق ساعة واحدة ملايين الرموز.
يخلق هذا فجوة كبيرة في الاختبارات الحالية. على سبيل المثال، تتطلب مهمة الأمن السيبراني "The Last Ones" التابعة لـ AISI حوالي 20 ساعة من الخبرة البشرية. ولم يتمكن أي نموذج اختبره المعهد من حل هذه المهمة بأقل من 30 مليون رمز. ومن خلال استخدام تقييمات قياسية ذات ميزانية منخفضة، يقوم الباحثون فعليًا باستبعاد المهام الأكثر تعقيدًا وحيوية من عملية القياس.
تسريع التقدم ومحاور التحسين الثلاثة
يشير معهد AISI إلى أن "الأفق الزمني" للنماذج الرائدة — أي تعقيد المهام التي يمكنها التعامل معها — يتوسع بشكل أسرع بكثير مما كان يعتقد سابقًا. وبينما أشارت التقديرات السابقة إلى أن الأفق الزمني للمهام السيبرانية يتضاعف كل 4.7 شهر عند ميزانية ثابتة قدرها 2.5 مليون رمز، فإن هذا المعدل يتسارع بشكل كبير عند الميزانيات الأعلى. فبميزانية 50 مليون رمز، تتسارع معدل التضاعف لتصبح كل 40 إلى 50 يومًا.
تُظهر النماذج الأحدث (مثل سلاسل GPT و Claude التي تم اختبارها) تحسنًا عبر ثلاثة أبعاد محددة:
- الوصول (Reach): القدرة على معالجة مهام تزداد صعوبة بشكل مستمر.
- الموثوقية (Reliability): القدرة على حل المهمة نفسها بشكل أكثر اتساقًا.
- الكفاءة (Efficiency): القدرة على حل المهام باستخدام عدد أقل من الرموز.
التداعيات على سلامة ونشر الذكاء الاصطناعي
ينقل هذا البحث نموذج تقييم الذكاء الاصطناعي من "الدرجات الثابتة" إلى "منحنيات واعية بالحوسبة". بالنسبة للمطورين والمؤسسين، يعني هذا أن فائدة النموذج ليست مجرد دالة لتدريبه، بل تعتمد أيضًا على مقدار حوسبة الاستدلال (inference compute) المخصصة أثناء النشر.
ومع استمرار انخفاض التكلفة لكل رمز، ستصبح القدرات التي كانت تبدو غير مجدية اقتصاديًا في السابق معيارًا سائدًا. وبالنسبة لسلامة وأمن الذكاء الاصطناعي، فإن هذا يعني أن المخاطر المتعلقة بالوكلاء المستقلين — مثل الهجمات السيبرانية المعقدة — قد يتم تقديرها بأقل من قيمتها الحقيقية بشكل كبير إذا اعتمد المنظمون والشركات على معايير التقييم التقليدية ذات الميزانية المنخفضة.
خلاصات رئيسية
- معايير التقييم مضللة: تلتقط ميزانيات الرموز الثابتة الحد الأدنى لأداء النموذج، مما يقلل بشكل منهجي من سقف ما يمكن لوكلاء الذكاء الاصطناعي تحقيقه.
- الحوسبة تزيد من القدرة: تقفز معدلات النجاح في هندسة البرمجيات والرياضيات بشكل كبير مع زيادة ميزانية الحوسبة أثناء الاختبار.
- معدل "التضاعف" يتسارع: عند ميزانيات الحوسبة الأعلى، يكون المعدل الذي تتقن به النماذج الرائدة المهام المعقدة أكثر حدة بكثير مما كان مقدرًا سابقًا.
