MA-ProofBench: GPT-5.5, 수학 해석학에서 16% 달성
현재의 AI 모델들은 고등 수학 문제 해결에 어려움을 겪고 있습니다.
MA-ProofBench라는 새로운 벤치마크는 수학 해석학에서의 정리 증명(theorem proving) 능력을 테스트합니다. 결과에 따르면 추론 능력에서 거대한 격차가 나타났습니다.
GPT-5.5는 다음과 같은 점수로 테스트를 주도했습니다:
- 학부 수준 문제(Level I)에서 16%
- 박사 수준 문제(Level II)에서 5%
대부분의 다른 모델들은 박사 수준 문제에서 0%에 가까운 점수를 기록했습니다.
이 벤치마크는 6개 주제에 걸친 200개의 정리를 포함합니다. 이 주제에는 측도론(measure theory)과 복소해석학(complex analysis)이 포함됩니다.
연구진은 모델이 실패하는 두 가지 주요 원인을 발견했습니다:
- Mathlib 환각(hallucinations): 모델이 겉보기에는 올바르지만 존재하지 않는 도구를 사용하는 Lean 코드를 작성합니다.
- 불완전한 증명: 모델이 증명을 올바르게 시작하지만 끝까지 도달하지 못합니다.
비형식적(informal) 추론과 형식적(formal) 추론 사이에도 격차가 존재합니다. 모델은 엄격한 코드 대신 자연어를 사용할 때 더 나은 성능을 보입니다.
박사 수준 수학에서의 낮은 점수는 현재 AI의 한계를 보여줍니다. 오늘날의 프런티어 모델들은 해석학에서의 엄밀한 형식적 증명을 수행할 만큼의 깊이가 부족합니다.
이 벤치마크는 향후 OpenAI나 Anthropic의 모델들이 더 어려운 문제에서 20%의 벽을 넘을 수 있을지 추적할 것입니다.
선택 사항 학습 커뮤니티: https://t.me/GyaanSetuAi