چرا بنچمارک‌های استاندارد هوش مصنوعی به‌طور سیستماتیک توانمندی‌های عامل‌ها را کمتر از حد واقعی تخمین می‌زنند

روش‌های فعلی ارزیابی هوش مصنوعی در ثبت پتانسیل واقعی مدل‌های پیشرو (frontier models) ناتوان هستند و اغلب کمبود بودجه محاسباتی را با کمبود هوش اشتباه می‌گیرند. موسسه امنیت هوش مصنوعی بریتانیا (AISI) فاش کرده است که عملکرد عامل هوش مصنوعی یک امتیاز ثابت نیست، بلکه یک منحنی مقیاس‌پذیر است که با افزایش محاسبات زمان تست (test-time compute) به‌شدت بالا می‌رود.

منحنی محاسبات-توانمندی

یافته اصلی تحقیقات AISI این است که نرخ موفقیت یک عامل هوش مصنوعی به‌طور جدایی‌ناپذیری با «محاسبات زمان تست» آن مرتبط است؛ یعنی میزان قدرت پردازش و توکن‌هایی که یک عامل مجاز است هنگام انجام یک وظیفه استفاده کند. وقتی محققان سقف بودجه ثابتی را برای ارزیابی‌ها در نظر می‌گیرند، در واقع دارند حداقل توانمندی یک مدل را اندازه‌گیری می‌کنند، نه حداکثر پتانسیل آن را.

این پدیده در چندین حوزه حساس مشهود است. در وظایف مهندسی نرم‌افزار با استفاده از بنچمارک‌هایی مانند TerminalBench 2.0 و SWE-Bench Pro، زمانی که بودجه توکن از یک میلیون به ده میلیون افزایش یافت، نرخ موفقیت تقریباً ۲۵٪ جهش کرد. به همین ترتیب، در وظایف ریاضی و آکادمیک در «آخرین امتحان بشریت» (Humanity's Last Exam)، با رسیدن بودجه به پنج میلیون توکن، شاهد افزایش ۲۲ درصدی بودیم.

قانون توان در زمان انجام وظایف توسط انسان در مقابل هوش مصنوعی

این مطالعه همبستگی مستقیمی بین زمانی که یک متخصص انسانی برای یک وظیفه نیاز دارد و مصرف توکن مورد نیاز یک عامل هوش مصنوعی برقرار کرد. این رابطه از یک قانون توان (power law) پیروی می‌کند: وظیفه‌ای که یک دقیقه از زمان انسان می‌گیرد، برای یک عامل هزاران توکن هزینه دارد، در حالی که یک وظیفه یک‌ساعته، میلیون‌ها توکن هزینه خواهد داشت.

این امر یک نقطه کور بزرگ در تست‌های فعلی ایجاد می‌کند. به عنوان مثال، وظیفه امنیت سایبری AISI با عنوان "The Last Ones" تقریباً به ۲۰ ساعت تخصص انسانی نیاز دارد. هیچ مدلی که توسط این موسسه آزمایش شده، نتوانست این وظیفه را با کمتر از ۳۰ میلیون توکن حل کند. محققان با استفاده از ارزیابی‌های استاندارد و با بودجه کمتر، در واقع پیچیده‌ترین و حیاتی‌ترین وظایف را از فرآیند اندازه‌گیری حذف می‌کنند.

شتاب گرفتن پیشرفت و سه محور بهبود

AISI خاطرنشان می‌کند که «افق زمانی» مدل‌های پیشرو — یعنی پیچیدگی وظایفی که می‌توانند انجام دهند — بسیار سریع‌تر از آنچه قبلاً تصور می‌شد در حال گسترش است. در حالی که برآوردهای قبلی نشان می‌داد افق زمانی برای وظایف سایبری با بودجه ثابت ۲.۵ میلیون توکنی، هر ۴.۷ ماه دو برابر می‌شود، این نرخ در بودجه‌های بالاتر به‌طور قابل توجهی شتاب می‌گیرد. در ۵۰ میلیون توکن، نرخ دو برابر شدن به هر ۴۰ تا ۵۰ روز یک بار افزایش می‌یابد.

مدل‌های جدیدتر (مانند سری‌های GPT و Claude که آزمایش شده‌اند) در سه بعد مشخص بهبود نشان می‌دهند:

  • گستره (Reach): توانایی مقابله با وظایف به‌مراتب دشوارتر.
  • قابلیت اطمینان (Reliability): توانایی حل یک وظیفه به شکلی ثابت‌تر و با ثبات‌تر.
  • کارایی (Efficiency): توانایی حل وظایف با استفاده از توکن‌های کمتر.

پیامدها برای ایمنی و استقرار هوش مصنوعی

این تحقیق پارادایم ارزیابی هوش مصنوعی را از «امتیازات ثابت» به «منحنی‌های آگاه از محاسبات» تغییر می‌دهد. برای توسعه‌دهندگان و بنیان‌گذاران، این بدان معناست که سودمندی یک مدل تنها تابعی از آموزش آن نیست، بلکه به میزان محاسبات استنتاجی (inference compute) اختصاص یافته در زمان استقرار نیز بستگی دارد.

با ادامه کاهش هزینه هر توکن، توانمندی‌هایی که قبلاً از نظر اقتصادی غیرممکن به نظر می‌رسیدند، به استاندارد تبدیل خواهند شد. برای ایمنی و امنیت هوش مصنوعی، این بدان معناست که اگر تنظیم‌گران و شرکت‌ها به بنچمارک‌های سنتی و کم‌بودجه تکیه کنند، خطرات مربوط به عامل‌های خودمختار — مانند حملات سایبری پیچیده — ممکن است به‌طور قابل توجهی کمتر از حد واقعی تخمین زده شوند.

نکات کلیدی

  • بنچمارک‌ها گمراه‌کننده هستند: بودجه‌های توکن ثابت، حداقل عملکرد یک مدل را ثبت می‌کنند و به‌طور سیستماتیک سقف توانایی‌های عامل‌های هوش مصنوعی را کمتر از حد واقعی تخمین می‌زنند.
  • محاسبات، توانمندی را مقیاس‌پذیر می‌کند: نرخ موفقیت در مهندسی نرم‌افزار و ریاضیات با افزایش بودجه محاسبات زمان تست، به‌طور قابل توجهی جهش می‌کند.
  • نرخ «دو برابر شدن» در حال شتاب گرفتن است: در بودجه‌های محاسباتی بالاتر، نرخی که مدل‌های پیشرو در آن بر وظایف پیچیده مسلط می‌شوند، بسیار تندتر از برآوردهای قبلی است.