𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

📅3 hours ago⏱1 min read

MA-ProofBench: GPT-5.5 ทำคะแนนได้ 16% ในด้านการวิเคราะห์คณิตศาสตร์

โมเดล AI ในปัจจุบันยังคงประสบปัญหาในการจัดการกับคณิตศาสตร์ขั้นสูง

Benchmark ใหม่ที่ชื่อว่า MA-ProofBench ใช้ทดสอบการพิสูจน์ทฤษฎีบทในด้านการวิเคราะห์ทางคณิตศาสตร์ (mathematical analysis) ซึ่งผลลัพธ์แสดงให้เห็นถึงช่องว่างขนาดใหญ่ในด้านทักษะการใช้เหตุผล

GPT-5.5 นำการทดสอบด้วยคะแนนดังนี้:

16% สำหรับโจทย์ระดับปริญญาตรี (Level I)
5% สำหรับโจทย์ระดับปริญญาเอก (Level II)

โมเดลอื่นๆ ส่วนใหญ่ทำคะแนนได้ใกล้เคียง 0% ในโจทย์ระดับปริญญาเอก

Benchmark นี้ประกอบด้วยทฤษฎีบท 200 รายการ ครอบคลุม 6 หัวข้อ ซึ่งรวมถึงทฤษฎีการวัด (measure theory) และการวิเคราะห์เชิงซ้อน (complex analysis)

นักวิจัยพบสาเหตุหลักสองประการที่ทำให้โมเดลล้มเหลว:

Mathlib hallucinations: โมเดลเขียนโค้ด Lean ที่ดูเหมือนจะถูกต้อง แต่กลับใช้เครื่องมือที่ไม่มีอยู่จริง
การพิสูจน์ที่ไม่สมบูรณ์: โมเดลเริ่มการพิสูจน์ได้อย่างถูกต้อง แต่ไม่สามารถดำเนินการไปจนถึงตอนจบได้

นอกจากนี้ยังพบช่องว่างระหว่างการใช้เหตุผลแบบไม่เป็นทางการ (informal reasoning) และแบบเป็นทางการ (formal reasoning) โดยโมเดลจะทำงานได้ดีกว่าเมื่อใช้ภาษาธรรมชาติแทนการใช้โค้ดที่เคร่งครัด

คะแนนที่ต่ำในคณิตศาสตร์ระดับปริญญาเอกแสดงให้เห็นถึงขีดจำกัดของ AI ในปัจจุบัน โมเดลระดับแนวหน้า (frontier models) ในปัจจุบันยังขาดความลึกซึ้งเพียงพอสำหรับการพิสูจน์แบบเป็นทางการที่เข้มงวดในด้านการวิเคราะห์

Benchmark นี้จะคอยติดตามว่าโมเดลในอนาคตจาก OpenAI หรือ Anthropic จะสามารถทำคะแนนทะลุเกณฑ์ 20% ในโจทย์ที่ยากขึ้นได้หรือไม่

แหล่งที่มา: https://arxiv.org

ชุมชนแห่งการเรียนรู้เพิ่มเติม: https://t.me/GyaanSetuAi

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

การใช้เหตุผลของ AI ในฐานะจุดสมดุล

𝗧𝗵𝗲 𝗠𝘆𝘁𝗵 𝗢𝗳 𝗧𝗵𝗲 𝗦𝘁𝗿𝗼𝗻𝗴𝗲𝘀𝘁 𝗠𝗼𝗱𝗲𝗹

𝗧𝗲𝘀𝘁𝗶𝗻𝗴 𝗡𝗼𝗻 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

เมื่อวิทยานิพนธ์ที่เขียนด้วยลายมือกลายเป็น AI ถึง 99 เปอร์เซ็นต์