MA-ProofBench: GPT-5.5 достигает 16% в математическом анализе
Современные модели ИИ испытывают трудности с продвинутой математикой.
Новый бенчмарк под названием MA-ProofBench тестирует доказательство теорем в математическом анализе. Результаты демонстрируют огромный разрыв в навыках рассуждения.
GPT-5.5 лидировала в тестах со следующими показателями:
- 16% в задачах бакалаврского уровня (Уровень I).
- 5% в задачах уровня PhD (Уровень II).
Большинство других моделей показали результат, близкий к 0%, в задачах уровня PhD.
Бенчмарк включает 200 теорем по 6 темам. Эти темы включают теорию меры и комплексный анализ.
Исследователи выявили две основные причины неудач моделей:
- Галлюцинации Mathlib: модели пишут код на Lean, который выглядит правильным, но использует несуществующие инструменты.
- Неполные доказательства: модели начинают доказательство правильно, но не могут довести его до конца.
Также наблюдается разрыв между неформальными и формальными рассуждениями. Модели работают лучше, когда используют естественный язык вместо строгого кода.
Низкие баллы в математике уровня PhD указывают на «потолок» возможностей современного ИИ. Сегодняшним передовым моделям не хватает глубины для построения строгих формальных доказательств в анализе.
Этот бенчмарк позволит отслеживать, смогут ли будущие модели от OpenAI или Anthropic преодолеть отметку в 20% в более сложных задачах.
Источник: https://arxiv.org
Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi