MA-ProofBench: GPT-5.5 در تحلیل ریاضی به امتیاز ۱۶٪ رسید
مدلهای فعلی هوش مصنوعی در ریاضیات پیشرفته با دشواری روبرو هستند.
یک بنچمارک جدید به نام MA-ProofBench، اثبات قضیه در تحلیل ریاضی را مورد آزمایش قرار میدهد. نتایج نشاندهنده شکافی عظیم در مهارتهای استدلال است.
GPT-5.5 با این امتیازها در آزمایشها پیشتاز بود:
- ۱۶٪ در مسائل مقطع کارشناسی (سطح I).
- ۵٪ در مسائل مقطع دکتری (سطح II).
اکثر مدلهای دیگر در مسائل سطح دکتری، امتیازی نزدیک به ۰٪ کسب کردند.
این بنچمارک شامل ۲۰۰ قضیه در ۶ موضوع مختلف است. این موضوعات شامل نظریه اندازه و آنالیز مختلط است.
محققان دو دلیل اصلی برای شکست مدلها یافتند:
- توهمات Mathlib: مدلها کدهای Lean مینویسند که درست به نظر میرسند اما از ابزارهای غیرموجود استفاده میکنند.
- اثباتهای ناقص: مدلها اثبات را به درستی شروع میکنند اما در رسیدن به پایان آن شکست میخورند.
همچنین شکافی بین استدلال غیررسمی و رسمی وجود دارد. مدلها زمانی که به جای کدهای سختگیرانه از زبان طبیعی استفاده میکنند، عملکرد بهتری دارند.
امتیازات پایین در ریاضیات سطح دکتری، نشاندهنده سقفی برای هوش مصنوعی فعلی است. مدلهای پیشرو امروزی فاقد عمق لازم برای اثباتهای رسمی و دقیق در آنالیز هستند.
این بنچمارک ردیابی خواهد کرد که آیا مدلهای آینده OpenAI یا Anthropic میتوانند از مرز ۲۰٪ در مسائل دشوارتر عبور کنند یا خیر.
منبع: https://arxiv.org
انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi