MA-ProofBench: GPT-5.5 در تحلیل ریاضی به امتیاز ۱۶٪ رسید

مدل‌های فعلی هوش مصنوعی در ریاضیات پیشرفته با دشواری روبرو هستند.

یک بنچمارک جدید به نام MA-ProofBench، اثبات قضیه در تحلیل ریاضی را مورد آزمایش قرار می‌دهد. نتایج نشان‌دهنده شکافی عظیم در مهارت‌های استدلال است.

GPT-5.5 با این امتیازها در آزمایش‌ها پیشتاز بود:

اکثر مدل‌های دیگر در مسائل سطح دکتری، امتیازی نزدیک به ۰٪ کسب کردند.

این بنچمارک شامل ۲۰۰ قضیه در ۶ موضوع مختلف است. این موضوعات شامل نظریه اندازه و آنالیز مختلط است.

محققان دو دلیل اصلی برای شکست مدل‌ها یافتند:

همچنین شکافی بین استدلال غیررسمی و رسمی وجود دارد. مدل‌ها زمانی که به جای کدهای سخت‌گیرانه از زبان طبیعی استفاده می‌کنند، عملکرد بهتری دارند.

امتیازات پایین در ریاضیات سطح دکتری، نشان‌دهنده سقفی برای هوش مصنوعی فعلی است. مدل‌های پیشرو امروزی فاقد عمق لازم برای اثبات‌های رسمی و دقیق در آنالیز هستند.

این بنچمارک ردیابی خواهد کرد که آیا مدل‌های آینده OpenAI یا Anthropic می‌توانند از مرز ۲۰٪ در مسائل دشوارتر عبور کنند یا خیر.

منبع: https://arxiv.org

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi