MA ProofBench: GPT 5.5 достигает 16% в математическом анализе

📅3 hours ago⏱1 min read

MA-ProofBench: GPT-5.5 достигает 16% в математическом анализе

Современные модели ИИ испытывают трудности с продвинутой математикой.

Новый бенчмарк под названием MA-ProofBench тестирует доказательство теорем в математическом анализе. Результаты демонстрируют огромный разрыв в навыках рассуждения.

GPT-5.5 лидировала в тестах со следующими показателями:

16% в задачах бакалаврского уровня (Уровень I).
5% в задачах уровня PhD (Уровень II).

Большинство других моделей показали результат, близкий к 0%, в задачах уровня PhD.

Бенчмарк включает 200 теорем по 6 темам. Эти темы включают теорию меры и комплексный анализ.

Исследователи выявили две основные причины неудач моделей:

Галлюцинации Mathlib: модели пишут код на Lean, который выглядит правильным, но использует несуществующие инструменты.
Неполные доказательства: модели начинают доказательство правильно, но не могут довести его до конца.

Также наблюдается разрыв между неформальными и формальными рассуждениями. Модели работают лучше, когда используют естественный язык вместо строгого кода.

Низкие баллы в математике уровня PhD указывают на «потолок» возможностей современного ИИ. Сегодняшним передовым моделям не хватает глубины для построения строгих формальных доказательств в анализе.

Этот бенчмарк позволит отслеживать, смогут ли будущие модели от OpenAI или Anthropic преодолеть отметку в 20% в более сложных задачах.

Источник: https://arxiv.org

Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi

MA ProofBench: GPT 5.5 достигает 16% в математическом анализе

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

Рассуждение ИИ как точка равновесия

𝗧𝗵𝗲 𝗠𝘆𝘁𝗵 𝗢𝗳 𝗧𝗵𝗲 𝗦𝘁𝗿𝗼𝗻𝗴𝗲𝘀𝘁 𝗠𝗼𝗱𝗲𝗹

𝗧𝗲𝘀𝘁𝗶𝗻𝗴 𝗡𝗼𝗻 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

Когда рукописная диссертация становится на 99% ИИ