𝗠𝗔-𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧-𝟱.𝟱 𝗮𝗹𝗰𝗮𝗻𝗰̧𝗮 𝟭𝟲% 𝗲𝗺 𝗔𝗻𝗮́𝗹𝗶𝘀𝗲 𝗠𝗮𝘁𝗲́𝗺𝗮𝘁𝗶𝗰𝗮

Os modelos atuais de IA têm dificuldade com matemática avançada.

Um novo benchmark chamado MA-ProofBench testa a demonstração de teoremas em análise matemática. Os resultados mostram uma lacuna massiva nas habilidades de raciocínio.

O GPT-5.5 liderou os testes com estas pontuações:

A maioria dos outros modelos obteve pontuações próximas a 0% em problemas de nível de doutorado.

O benchmark inclui 200 teoremas em 6 tópicos. Esses tópicos incluem teoria da medida e análise complexa.

Pesquisadores encontraram duas razões principais para o fracasso dos modelos:

Há também uma lacuna entre o raciocínio informal e o formal. Os modelos apresentam melhor desempenho quando utilizam linguagem natural em vez de código estrito.

As baixas pontuações em matemática de nível de doutorado mostram um teto para a IA atual. Os modelos de fronteira de hoje carecem de profundidade para provas formais rigorosas em análise.

Este benchmark acompanhará se os futuros modelos da OpenAI ou Anthropic conseguirão ultrapassar a marca de 20% em problemas mais difíceis.

Fonte: https://arxiv.org

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi