𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

📅3 hours ago⏱1 min read

MA-ProofBench: GPT-5.5 досягає 16% у математичному аналізі

Сучасні моделі ШІ мають труднощі з вищою математикою.

Новий бенчмарк під назвою MA-ProofBench тестує доведення теорем у математичному аналізі. Результати демонструють величезний розрив у навичках міркування.

GPT-5.5 очолила тести з такими показниками:

16% у задачах бакалаврського рівня (Рівень I).
5% у задачах рівня PhD (Рівень II).

Більшість інших моделей показали результат близький до 0% у задачах рівня PhD.

Бенчмарк охоплює 200 теорем у 6 темах. Ці теми включають теорію міри та комплексний аналіз.

Дослідники виявили дві основні причини, чому моделі зазнають невдач:

Галюцинації Mathlib: моделі пишуть код Lean, який виглядає правильним, але використовує неіснуючі інструменти.
Неповні доведення: моделі починають доведення правильно, але не можуть дійти до кінця.

Також існує розрив між неформальним і формальним міркуванням. Моделі працюють краще, коли використовують природну мову замість суворого коду.

Низькі показники в математиці рівня PhD свідчать про «стелю» для сучасного ШІ. Сучасним передовим моделям бракує глибини для проведення суворих формальних доведень в аналізі.

Цей бенчмарк дозволить відстежувати, чи зможуть майбутні моделі від OpenAI або Anthropic подолати позначку у 20% у складніших задачах.

Джерело: https://arxiv.org

Додаткова спільнота для навчання: https://t.me/GyaanSetuAi

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

ШІ-міркування як точка рівноваги

𝗧𝗵𝗲 𝗠𝘆𝘁𝗵 𝗢𝗳 𝗧𝗵𝗲 𝗦𝘁𝗿𝗼𝗻𝗴𝗲𝘀𝘁 𝗠𝗼𝗱𝗲𝗹

𝗧𝗲𝘀𝘁𝗶𝗻𝗴 𝗡𝗼𝗻 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗪𝗵𝗲𝗻 𝗮 𝗛𝗮𝗻𝗱𝘄𝗿𝗶𝘁𝘁𝗲𝗻 𝗧𝗵𝗲𝘀𝗶𝘀 𝗕𝗲𝗰𝗼𝗺𝗲𝘀 𝟵𝟵 𝗣𝗲𝗿𝗰𝗲𝗻𝘁 𝗔𝗜