MA-ProofBench: GPT-5.5 досягає 16% у математичному аналізі

Сучасні моделі ШІ мають труднощі з вищою математикою.

Новий бенчмарк під назвою MA-ProofBench тестує доведення теорем у математичному аналізі. Результати демонструють величезний розрив у навичках міркування.

GPT-5.5 очолила тести з такими показниками:

Більшість інших моделей показали результат близький до 0% у задачах рівня PhD.

Бенчмарк охоплює 200 теорем у 6 темах. Ці теми включають теорію міри та комплексний аналіз.

Дослідники виявили дві основні причини, чому моделі зазнають невдач:

Також існує розрив між неформальним і формальним міркуванням. Моделі працюють краще, коли використовують природну мову замість суворого коду.

Низькі показники в математиці рівня PhD свідчать про «стелю» для сучасного ШІ. Сучасним передовим моделям бракує глибини для проведення суворих формальних доведень в аналізі.

Цей бенчмарк дозволить відстежувати, чи зможуть майбутні моделі від OpenAI або Anthropic подолати позначку у 20% у складніших задачах.

Джерело: https://arxiv.org

Додаткова спільнота для навчання: https://t.me/GyaanSetuAi