لماذا تقلل معايير تقييم الذكاء الاصطناعي القياسية من قدرات الوكلاء بشكل منهجي

Translated for your language. اقرأ الأصل.

AI-assisted draft.

GyaanSetu Editorialقبل 20 ساعة3دقيقة قراءة

لماذا تقلل معايير تقييم الذكاء الاصطناعي القياسية من قدرات الوكلاء بشكل منهجي

في هذا المقال

لماذا تقلل معايير تقييم الذكاء الاصطناعي القياسية بشكل منهجي من قدرات الوكلاء

تفشل أساليب تقييم الذكاء الاصطناعي الحالية في استيعاب الإمكانات الحقيقية للنماذج الرائدة، وغالبًا ما تخلط بين نقص الميزانية الحسابية ونقص الذكاء. وقد كشف معهد أمن الذكاء الاصطناعي (AISI) في المملكة المتحدة أن أداء وكيل الذكاء الاصطناعي ليس درجة ثابتة، بل هو منحنى توسع يرتفع بشكل حاد مع زيادة الحوسبة أثناء الاختبار (test-time compute).

منحنى الحوسبة والقدرة

النتيجة المركزية لأبحاث AISI هي أن معدل نجاح وكيل الذكاء الاصطناعي مرتبط ارتباطًا وثيقًا بـ "الحوسبة أثناء الاختبار" (test-time compute) — أي مقدار قوة المعالجة والرموز (tokens) المسموح للوكيل باستخدامها أثناء العمل على مهمة ما. عندما يضع الباحثون حدودًا ثابتة للميزانية في التقييمات، فإنهم يقيسون الحد الأدنى لقدرة النموذج بدلاً من إمكاناته القصوى.

تظهر هذه الظاهرة في العديد من المجالات ذات الأهمية البالغة. ففي مهام هندسة البرمجيات باستخدام معايير مثل TerminalBench 2.0 و SWE-Bench Pro، ارتفعت معدلات النجاح بنسبة 25% تقريبًا عندما تمت زيادة ميزانية الرموز من مليون إلى عشرة ملايين رمز. وبالمثل، شهدت المهام الرياضية والأكاديمية في "Humanity's Last Exam" زيادة بنسبة 22% عندما وصلت الميزانية إلى خمسة ملايين رمز.

قانون القوة بين وقت المهمة للبشر مقابل الذكاء الاصطناعي

أثبتت الدراسة وجود علاقة مباشرة بين الوقت الذي يحتاجه خبير بشري لإنجاز مهمة ما واستهلاك الرموز المطلوب من وكيل الذكاء الاصطناعي. تتبع هذه العلاقة قانون القوة (power law): فالمهمة التي تستغرق من الإنسان دقيقة واحدة تكلف الوكيل آلاف الرموز، بينما تكلف المهمة التي تستغرق ساعة واحدة ملايين الرموز.

يخلق هذا فجوة كبيرة في الاختبارات الحالية. على سبيل المثال، تتطلب مهمة الأمن السيبراني "The Last Ones" التابعة لـ AISI حوالي 20 ساعة من الخبرة البشرية. ولم يتمكن أي نموذج اختبره المعهد من حل هذه المهمة بأقل من 30 مليون رمز. ومن خلال استخدام تقييمات قياسية ذات ميزانية منخفضة، يقوم الباحثون فعليًا باستبعاد المهام الأكثر تعقيدًا وحيوية من عملية القياس.

تسريع التقدم ومحاور التحسين الثلاثة

يشير معهد AISI إلى أن "الأفق الزمني" للنماذج الرائدة — أي تعقيد المهام التي يمكنها التعامل معها — يتوسع بشكل أسرع بكثير مما كان يعتقد سابقًا. وبينما أشارت التقديرات السابقة إلى أن الأفق الزمني للمهام السيبرانية يتضاعف كل 4.7 شهر عند ميزانية ثابتة قدرها 2.5 مليون رمز، فإن هذا المعدل يتسارع بشكل كبير عند الميزانيات الأعلى. فبميزانية 50 مليون رمز، تتسارع معدل التضاعف لتصبح كل 40 إلى 50 يومًا.

تُظهر النماذج الأحدث (مثل سلاسل GPT و Claude التي تم اختبارها) تحسنًا عبر ثلاثة أبعاد محددة:

الوصول (Reach): القدرة على معالجة مهام تزداد صعوبة بشكل مستمر.
الموثوقية (Reliability): القدرة على حل المهمة نفسها بشكل أكثر اتساقًا.
الكفاءة (Efficiency): القدرة على حل المهام باستخدام عدد أقل من الرموز.

التداعيات على سلامة ونشر الذكاء الاصطناعي

ينقل هذا البحث نموذج تقييم الذكاء الاصطناعي من "الدرجات الثابتة" إلى "منحنيات واعية بالحوسبة". بالنسبة للمطورين والمؤسسين، يعني هذا أن فائدة النموذج ليست مجرد دالة لتدريبه، بل تعتمد أيضًا على مقدار حوسبة الاستدلال (inference compute) المخصصة أثناء النشر.

ومع استمرار انخفاض التكلفة لكل رمز، ستصبح القدرات التي كانت تبدو غير مجدية اقتصاديًا في السابق معيارًا سائدًا. وبالنسبة لسلامة وأمن الذكاء الاصطناعي، فإن هذا يعني أن المخاطر المتعلقة بالوكلاء المستقلين — مثل الهجمات السيبرانية المعقدة — قد يتم تقديرها بأقل من قيمتها الحقيقية بشكل كبير إذا اعتمد المنظمون والشركات على معايير التقييم التقليدية ذات الميزانية المنخفضة.

خلاصات رئيسية

معايير التقييم مضللة: تلتقط ميزانيات الرموز الثابتة الحد الأدنى لأداء النموذج، مما يقلل بشكل منهجي من سقف ما يمكن لوكلاء الذكاء الاصطناعي تحقيقه.
الحوسبة تزيد من القدرة: تقفز معدلات النجاح في هندسة البرمجيات والرياضيات بشكل كبير مع زيادة ميزانية الحوسبة أثناء الاختبار.
معدل "التضاعف" يتسارع: عند ميزانيات الحوسبة الأعلى، يكون المعدل الذي تتقن به النماذج الرائدة المهام المعقدة أكثر حدة بكثير مما كان مقدرًا سابقًا.

لماذا تقلل معايير تقييم الذكاء الاصطناعي القياسية من قدرات الوكلاء بشكل منهجي

لماذا تقلل معايير تقييم الذكاء الاصطناعي القياسية بشكل منهجي من قدرات الوكلاء

منحنى الحوسبة والقدرة

قانون القوة بين وقت المهمة للبشر مقابل الذكاء الاصطناعي

تسريع التقدم ومحاور التحسين الثلاثة

التداعيات على سلامة ونشر الذكاء الاصطناعي

خلاصات رئيسية

متابعة القراءة

٧ أخطاء تؤدي إلى فشل وكلاء الذكاء الاصطناعي

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

تقييم وكلاء الذكاء الاصطناعي ينتهي في وقت مبكر للغاية

صعود الذكاء الاصطناعي الوكيل: لماذا تقود الفرق التقنية طليعة الأتمتة

لماذا تفشل نماذج الذكاء الاصطناعي الرائدة في اختبارات الفرز المالي