چرا بنچمارکهای استاندارد هوش مصنوعی بهطور سیستماتیک توانمندیهای عاملها را کمتر از حد واقعی تخمین میزنند
روشهای فعلی ارزیابی هوش مصنوعی در ثبت پتانسیل واقعی مدلهای پیشرو (frontier models) ناتوان هستند و اغلب کمبود بودجه محاسباتی را با کمبود هوش اشتباه میگیرند. موسسه امنیت هوش مصنوعی بریتانیا (AISI) فاش کرده است که عملکرد عامل هوش مصنوعی یک امتیاز ثابت نیست، بلکه یک منحنی مقیاسپذیر است که با افزایش محاسبات زمان تست (test-time compute) بهشدت بالا میرود.
منحنی محاسبات-توانمندی
یافته اصلی تحقیقات AISI این است که نرخ موفقیت یک عامل هوش مصنوعی بهطور جداییناپذیری با «محاسبات زمان تست» آن مرتبط است؛ یعنی میزان قدرت پردازش و توکنهایی که یک عامل مجاز است هنگام انجام یک وظیفه استفاده کند. وقتی محققان سقف بودجه ثابتی را برای ارزیابیها در نظر میگیرند، در واقع دارند حداقل توانمندی یک مدل را اندازهگیری میکنند، نه حداکثر پتانسیل آن را.
این پدیده در چندین حوزه حساس مشهود است. در وظایف مهندسی نرمافزار با استفاده از بنچمارکهایی مانند TerminalBench 2.0 و SWE-Bench Pro، زمانی که بودجه توکن از یک میلیون به ده میلیون افزایش یافت، نرخ موفقیت تقریباً ۲۵٪ جهش کرد. به همین ترتیب، در وظایف ریاضی و آکادمیک در «آخرین امتحان بشریت» (Humanity's Last Exam)، با رسیدن بودجه به پنج میلیون توکن، شاهد افزایش ۲۲ درصدی بودیم.
قانون توان در زمان انجام وظایف توسط انسان در مقابل هوش مصنوعی
این مطالعه همبستگی مستقیمی بین زمانی که یک متخصص انسانی برای یک وظیفه نیاز دارد و مصرف توکن مورد نیاز یک عامل هوش مصنوعی برقرار کرد. این رابطه از یک قانون توان (power law) پیروی میکند: وظیفهای که یک دقیقه از زمان انسان میگیرد، برای یک عامل هزاران توکن هزینه دارد، در حالی که یک وظیفه یکساعته، میلیونها توکن هزینه خواهد داشت.
این امر یک نقطه کور بزرگ در تستهای فعلی ایجاد میکند. به عنوان مثال، وظیفه امنیت سایبری AISI با عنوان "The Last Ones" تقریباً به ۲۰ ساعت تخصص انسانی نیاز دارد. هیچ مدلی که توسط این موسسه آزمایش شده، نتوانست این وظیفه را با کمتر از ۳۰ میلیون توکن حل کند. محققان با استفاده از ارزیابیهای استاندارد و با بودجه کمتر، در واقع پیچیدهترین و حیاتیترین وظایف را از فرآیند اندازهگیری حذف میکنند.
شتاب گرفتن پیشرفت و سه محور بهبود
AISI خاطرنشان میکند که «افق زمانی» مدلهای پیشرو — یعنی پیچیدگی وظایفی که میتوانند انجام دهند — بسیار سریعتر از آنچه قبلاً تصور میشد در حال گسترش است. در حالی که برآوردهای قبلی نشان میداد افق زمانی برای وظایف سایبری با بودجه ثابت ۲.۵ میلیون توکنی، هر ۴.۷ ماه دو برابر میشود، این نرخ در بودجههای بالاتر بهطور قابل توجهی شتاب میگیرد. در ۵۰ میلیون توکن، نرخ دو برابر شدن به هر ۴۰ تا ۵۰ روز یک بار افزایش مییابد.
مدلهای جدیدتر (مانند سریهای GPT و Claude که آزمایش شدهاند) در سه بعد مشخص بهبود نشان میدهند:
- گستره (Reach): توانایی مقابله با وظایف بهمراتب دشوارتر.
- قابلیت اطمینان (Reliability): توانایی حل یک وظیفه به شکلی ثابتتر و با ثباتتر.
- کارایی (Efficiency): توانایی حل وظایف با استفاده از توکنهای کمتر.
پیامدها برای ایمنی و استقرار هوش مصنوعی
این تحقیق پارادایم ارزیابی هوش مصنوعی را از «امتیازات ثابت» به «منحنیهای آگاه از محاسبات» تغییر میدهد. برای توسعهدهندگان و بنیانگذاران، این بدان معناست که سودمندی یک مدل تنها تابعی از آموزش آن نیست، بلکه به میزان محاسبات استنتاجی (inference compute) اختصاص یافته در زمان استقرار نیز بستگی دارد.
با ادامه کاهش هزینه هر توکن، توانمندیهایی که قبلاً از نظر اقتصادی غیرممکن به نظر میرسیدند، به استاندارد تبدیل خواهند شد. برای ایمنی و امنیت هوش مصنوعی، این بدان معناست که اگر تنظیمگران و شرکتها به بنچمارکهای سنتی و کمبودجه تکیه کنند، خطرات مربوط به عاملهای خودمختار — مانند حملات سایبری پیچیده — ممکن است بهطور قابل توجهی کمتر از حد واقعی تخمین زده شوند.
نکات کلیدی
- بنچمارکها گمراهکننده هستند: بودجههای توکن ثابت، حداقل عملکرد یک مدل را ثبت میکنند و بهطور سیستماتیک سقف تواناییهای عاملهای هوش مصنوعی را کمتر از حد واقعی تخمین میزنند.
- محاسبات، توانمندی را مقیاسپذیر میکند: نرخ موفقیت در مهندسی نرمافزار و ریاضیات با افزایش بودجه محاسبات زمان تست، بهطور قابل توجهی جهش میکند.
- نرخ «دو برابر شدن» در حال شتاب گرفتن است: در بودجههای محاسباتی بالاتر، نرخی که مدلهای پیشرو در آن بر وظایف پیچیده مسلط میشوند، بسیار تندتر از برآوردهای قبلی است.
