𝗠𝗔-𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧-𝟱.𝟱 𝗮𝗹𝗰𝗮𝗻𝗰̧𝗮 𝟭𝟲% 𝗲𝗺 𝗔𝗻𝗮́𝗹𝗶𝘀𝗲 𝗠𝗮𝘁𝗲́𝗺𝗮𝘁𝗶𝗰𝗮
Os modelos atuais de IA têm dificuldade com matemática avançada.
Um novo benchmark chamado MA-ProofBench testa a demonstração de teoremas em análise matemática. Os resultados mostram uma lacuna massiva nas habilidades de raciocínio.
O GPT-5.5 liderou os testes com estas pontuações:
- 16% em problemas de graduação (Nível I).
- 5% em problemas de nível de doutorado (Nível II).
A maioria dos outros modelos obteve pontuações próximas a 0% em problemas de nível de doutorado.
O benchmark inclui 200 teoremas em 6 tópicos. Esses tópicos incluem teoria da medida e análise complexa.
Pesquisadores encontraram duas razões principais para o fracasso dos modelos:
- Alucinações de Mathlib: Os modelos escrevem código Lean que parece correto, mas utiliza ferramentas inexistentes.
- Provas incompletas: Os modelos iniciam uma prova corretamente, mas não conseguem chegar ao fim.
Há também uma lacuna entre o raciocínio informal e o formal. Os modelos apresentam melhor desempenho quando utilizam linguagem natural em vez de código estrito.
As baixas pontuações em matemática de nível de doutorado mostram um teto para a IA atual. Os modelos de fronteira de hoje carecem de profundidade para provas formais rigorosas em análise.
Este benchmark acompanhará se os futuros modelos da OpenAI ou Anthropic conseguirão ultrapassar a marca de 20% em problemas mais difíceis.
Fonte: https://arxiv.org
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi