MA-ProofBench: GPT-5.5 ทำคะแนนได้ 16% ในด้านการวิเคราะห์คณิตศาสตร์
โมเดล AI ในปัจจุบันยังคงประสบปัญหาในการจัดการกับคณิตศาสตร์ขั้นสูง
Benchmark ใหม่ที่ชื่อว่า MA-ProofBench ใช้ทดสอบการพิสูจน์ทฤษฎีบทในด้านการวิเคราะห์ทางคณิตศาสตร์ (mathematical analysis) ซึ่งผลลัพธ์แสดงให้เห็นถึงช่องว่างขนาดใหญ่ในด้านทักษะการใช้เหตุผล
GPT-5.5 นำการทดสอบด้วยคะแนนดังนี้:
- 16% สำหรับโจทย์ระดับปริญญาตรี (Level I)
- 5% สำหรับโจทย์ระดับปริญญาเอก (Level II)
โมเดลอื่นๆ ส่วนใหญ่ทำคะแนนได้ใกล้เคียง 0% ในโจทย์ระดับปริญญาเอก
Benchmark นี้ประกอบด้วยทฤษฎีบท 200 รายการ ครอบคลุม 6 หัวข้อ ซึ่งรวมถึงทฤษฎีการวัด (measure theory) และการวิเคราะห์เชิงซ้อน (complex analysis)
นักวิจัยพบสาเหตุหลักสองประการที่ทำให้โมเดลล้มเหลว:
- Mathlib hallucinations: โมเดลเขียนโค้ด Lean ที่ดูเหมือนจะถูกต้อง แต่กลับใช้เครื่องมือที่ไม่มีอยู่จริง
- การพิสูจน์ที่ไม่สมบูรณ์: โมเดลเริ่มการพิสูจน์ได้อย่างถูกต้อง แต่ไม่สามารถดำเนินการไปจนถึงตอนจบได้
นอกจากนี้ยังพบช่องว่างระหว่างการใช้เหตุผลแบบไม่เป็นทางการ (informal reasoning) และแบบเป็นทางการ (formal reasoning) โดยโมเดลจะทำงานได้ดีกว่าเมื่อใช้ภาษาธรรมชาติแทนการใช้โค้ดที่เคร่งครัด
คะแนนที่ต่ำในคณิตศาสตร์ระดับปริญญาเอกแสดงให้เห็นถึงขีดจำกัดของ AI ในปัจจุบัน โมเดลระดับแนวหน้า (frontier models) ในปัจจุบันยังขาดความลึกซึ้งเพียงพอสำหรับการพิสูจน์แบบเป็นทางการที่เข้มงวดในด้านการวิเคราะห์
Benchmark นี้จะคอยติดตามว่าโมเดลในอนาคตจาก OpenAI หรือ Anthropic จะสามารถทำคะแนนทะลุเกณฑ์ 20% ในโจทย์ที่ยากขึ้นได้หรือไม่
แหล่งที่มา: https://arxiv.org
ชุมชนแห่งการเรียนรู้เพิ่มเติม: https://t.me/GyaanSetuAi