𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

Machine-translated. Read the original.

📅3 hours ago⏱1 min read

MA-ProofBench: GPT-5.5, 수학 해석학에서 16% 달성

현재의 AI 모델들은 고등 수학 문제 해결에 어려움을 겪고 있습니다.

MA-ProofBench라는 새로운 벤치마크는 수학 해석학에서의 정리 증명(theorem proving) 능력을 테스트합니다. 결과에 따르면 추론 능력에서 거대한 격차가 나타났습니다.

GPT-5.5는 다음과 같은 점수로 테스트를 주도했습니다:

대부분의 다른 모델들은 박사 수준 문제에서 0%에 가까운 점수를 기록했습니다.

이 벤치마크는 6개 주제에 걸친 200개의 정리를 포함합니다. 이 주제에는 측도론(measure theory)과 복소해석학(complex analysis)이 포함됩니다.

연구진은 모델이 실패하는 두 가지 주요 원인을 발견했습니다:

비형식적(informal) 추론과 형식적(formal) 추론 사이에도 격차가 존재합니다. 모델은 엄격한 코드 대신 자연어를 사용할 때 더 나은 성능을 보입니다.

박사 수준 수학에서의 낮은 점수는 현재 AI의 한계를 보여줍니다. 오늘날의 프런티어 모델들은 해석학에서의 엄밀한 형식적 증명을 수행할 만큼의 깊이가 부족합니다.

이 벤치마크는 향후 OpenAI나 Anthropic의 모델들이 더 어려운 문제에서 20%의 벽을 넘을 수 있을지 추적할 것입니다.

선택 사항 학습 커뮤니티: https://t.me/GyaanSetuAi

Continue reading