𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

📅3 hours ago⏱1 min read

𝗠𝗔-𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧-𝟱.𝟱 𝗮𝗹𝗰𝗮𝗻𝗰̧𝗮 𝟭𝟲% 𝗲𝗺 𝗔𝗻𝗮́𝗹𝗶𝘀𝗲 𝗠𝗮𝘁𝗲́𝗺𝗮𝘁𝗶𝗰𝗮

Os modelos atuais de IA têm dificuldade com matemática avançada.

Um novo benchmark chamado MA-ProofBench testa a demonstração de teoremas em análise matemática. Os resultados mostram uma lacuna massiva nas habilidades de raciocínio.

O GPT-5.5 liderou os testes com estas pontuações:

16% em problemas de graduação (Nível I).
5% em problemas de nível de doutorado (Nível II).

A maioria dos outros modelos obteve pontuações próximas a 0% em problemas de nível de doutorado.

O benchmark inclui 200 teoremas em 6 tópicos. Esses tópicos incluem teoria da medida e análise complexa.

Pesquisadores encontraram duas razões principais para o fracasso dos modelos:

Alucinações de Mathlib: Os modelos escrevem código Lean que parece correto, mas utiliza ferramentas inexistentes.
Provas incompletas: Os modelos iniciam uma prova corretamente, mas não conseguem chegar ao fim.

Há também uma lacuna entre o raciocínio informal e o formal. Os modelos apresentam melhor desempenho quando utilizam linguagem natural em vez de código estrito.

As baixas pontuações em matemática de nível de doutorado mostram um teto para a IA atual. Os modelos de fronteira de hoje carecem de profundidade para provas formais rigorosas em análise.

Este benchmark acompanhará se os futuros modelos da OpenAI ou Anthropic conseguirão ultrapassar a marca de 20% em problemas mais difíceis.

Fonte: https://arxiv.org

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

O Raciocínio de IA como um Ponto de Equilíbrio

𝗧𝗵𝗲 𝗠𝘆𝘁𝗵 𝗢𝗳 𝗧𝗵𝗲 𝗦𝘁𝗿𝗼𝗻𝗴𝗲𝘀𝘁 𝗠𝗼𝗱𝗲𝗹

𝗧𝗲𝘀𝘁𝗶𝗻𝗴 𝗡𝗼𝗻 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗪𝗵𝗲𝗻 𝗮 𝗛𝗮𝗻𝗱𝘄𝗿𝗶𝘁𝘁𝗲𝗻 𝗧𝗵𝗲𝘀𝗶𝘀 𝗕𝗲𝗰𝗼𝗺𝗲𝘀 𝟵𝟵 𝗣𝗲𝗿𝗰𝗲𝗻𝘁 𝗔𝗜