MA-ProofBench: GPT-5.5 досягає 16% у математичному аналізі
Сучасні моделі ШІ мають труднощі з вищою математикою.
Новий бенчмарк під назвою MA-ProofBench тестує доведення теорем у математичному аналізі. Результати демонструють величезний розрив у навичках міркування.
GPT-5.5 очолила тести з такими показниками:
- 16% у задачах бакалаврського рівня (Рівень I).
- 5% у задачах рівня PhD (Рівень II).
Більшість інших моделей показали результат близький до 0% у задачах рівня PhD.
Бенчмарк охоплює 200 теорем у 6 темах. Ці теми включають теорію міри та комплексний аналіз.
Дослідники виявили дві основні причини, чому моделі зазнають невдач:
- Галюцинації Mathlib: моделі пишуть код Lean, який виглядає правильним, але використовує неіснуючі інструменти.
- Неповні доведення: моделі починають доведення правильно, але не можуть дійти до кінця.
Також існує розрив між неформальним і формальним міркуванням. Моделі працюють краще, коли використовують природну мову замість суворого коду.
Низькі показники в математиці рівня PhD свідчать про «стелю» для сучасного ШІ. Сучасним передовим моделям бракує глибини для проведення суворих формальних доведень в аналізі.
Цей бенчмарк дозволить відстежувати, чи зможуть майбутні моделі від OpenAI або Anthropic подолати позначку у 20% у складніших задачах.
Джерело: https://arxiv.org
Додаткова спільнота для навчання: https://t.me/GyaanSetuAi