MA-ProofBench: GPT-5.5が数学解析で16%を記録
現在のAIモデルは、高度な数学に苦戦しています。
MA-ProofBenchと呼ばれる新しいベンチマークは、数学解析における定理証明をテストするものです。その結果、推論能力における大きな隔たりが明らかになりました。
GPT-5.5は、以下のスコアでテストをリードしました:
- 学部レベルの問題(レベルI)で16%。
- 博士課程レベルの問題(レベルII)で5%。
他のほとんどのモデルは、博士課程レベルの問題で0%に近いスコアでした。
このベンチマークには、6つのトピックにわたる200の定理が含まれています。これらのトピックには、測度論や複素解析が含まれます。
研究者たちは、モデルが失敗する主な理由として2つの原因を特定しました:
- Mathlibのハルシネーション:モデルは一見正しく見えるLeanコードを記述しますが、存在しないツールを使用しています。
- 不完全な証明:モデルは証明を正しく開始しますが、最後まで到達できません。
また、非形式的な推論と形式的な推論の間にも隔たりがあります。モデルは、厳密なコードを使用するよりも、自然言語を使用する場合の方が高いパフォーマンスを発揮します。
博士課程レベルの数学における低いスコアは、現在のAIの限界を示しています。今日の最先端モデルは、解析学における厳密な形式的証明を行うための深みに欠けています。
このベンチマークは、OpenAIやAnthropicの将来のモデルが、より困難な問題で20%の壁を突破できるかどうかを追跡していくことになります。
オプションの学習コミュニティ: https://t.me/GyaanSetuAi