MA-ProofBench: GPT-5.5 ทำคะแนนได้ 16% ในด้านการวิเคราะห์คณิตศาสตร์

โมเดล AI ในปัจจุบันยังคงประสบปัญหาในการจัดการกับคณิตศาสตร์ขั้นสูง

Benchmark ใหม่ที่ชื่อว่า MA-ProofBench ใช้ทดสอบการพิสูจน์ทฤษฎีบทในด้านการวิเคราะห์ทางคณิตศาสตร์ (mathematical analysis) ซึ่งผลลัพธ์แสดงให้เห็นถึงช่องว่างขนาดใหญ่ในด้านทักษะการใช้เหตุผล

GPT-5.5 นำการทดสอบด้วยคะแนนดังนี้:

โมเดลอื่นๆ ส่วนใหญ่ทำคะแนนได้ใกล้เคียง 0% ในโจทย์ระดับปริญญาเอก

Benchmark นี้ประกอบด้วยทฤษฎีบท 200 รายการ ครอบคลุม 6 หัวข้อ ซึ่งรวมถึงทฤษฎีการวัด (measure theory) และการวิเคราะห์เชิงซ้อน (complex analysis)

นักวิจัยพบสาเหตุหลักสองประการที่ทำให้โมเดลล้มเหลว:

นอกจากนี้ยังพบช่องว่างระหว่างการใช้เหตุผลแบบไม่เป็นทางการ (informal reasoning) และแบบเป็นทางการ (formal reasoning) โดยโมเดลจะทำงานได้ดีกว่าเมื่อใช้ภาษาธรรมชาติแทนการใช้โค้ดที่เคร่งครัด

คะแนนที่ต่ำในคณิตศาสตร์ระดับปริญญาเอกแสดงให้เห็นถึงขีดจำกัดของ AI ในปัจจุบัน โมเดลระดับแนวหน้า (frontier models) ในปัจจุบันยังขาดความลึกซึ้งเพียงพอสำหรับการพิสูจน์แบบเป็นทางการที่เข้มงวดในด้านการวิเคราะห์

Benchmark นี้จะคอยติดตามว่าโมเดลในอนาคตจาก OpenAI หรือ Anthropic จะสามารถทำคะแนนทะลุเกณฑ์ 20% ในโจทย์ที่ยากขึ้นได้หรือไม่

แหล่งที่มา: https://arxiv.org

ชุมชนแห่งการเรียนรู้เพิ่มเติม: https://t.me/GyaanSetuAi