MA-ProofBench: GPT-5.5 достигает 16% в математическом анализе

Современные модели ИИ испытывают трудности с продвинутой математикой.

Новый бенчмарк под названием MA-ProofBench тестирует доказательство теорем в математическом анализе. Результаты демонстрируют огромный разрыв в навыках рассуждения.

GPT-5.5 лидировала в тестах со следующими показателями:

Большинство других моделей показали результат, близкий к 0%, в задачах уровня PhD.

Бенчмарк включает 200 теорем по 6 темам. Эти темы включают теорию меры и комплексный анализ.

Исследователи выявили две основные причины неудач моделей:

Также наблюдается разрыв между неформальными и формальными рассуждениями. Модели работают лучше, когда используют естественный язык вместо строгого кода.

Низкие баллы в математике уровня PhD указывают на «потолок» возможностей современного ИИ. Сегодняшним передовым моделям не хватает глубины для построения строгих формальных доказательств в анализе.

Этот бенчмарк позволит отслеживать, смогут ли будущие модели от OpenAI или Anthropic преодолеть отметку в 20% в более сложных задачах.

Источник: https://arxiv.org

Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi