MA-ProofBench: GPT-5.5 đạt 16% trong Phân tích Toán học
Các mô hình AI hiện tại đang gặp khó khăn với toán học nâng cao.
Một benchmark mới mang tên MA-ProofBench kiểm tra khả năng chứng minh định lý trong phân tích toán học. Kết quả cho thấy một khoảng cách lớn về kỹ năng lập luận.
GPT-5.5 dẫn đầu các bài kiểm tra với các mức điểm sau:
- 16% đối với các bài toán trình độ đại học (Cấp độ I).
- 5% đối với các bài toán trình độ Tiến sĩ (Cấp độ II).
Hầu hết các mô hình khác đạt điểm gần 0% ở các bài toán trình độ Tiến sĩ.
Benchmark này bao gồm 200 định lý thuộc 6 chủ đề. Các chủ đề này bao gồm lý thuyết độ đo và phân tích phức.
Các nhà nghiên cứu đã tìm ra hai lý do chính khiến các mô hình thất bại:
- Ảo giác Mathlib: Các mô hình viết mã Lean trông có vẻ đúng nhưng lại sử dụng các công cụ không tồn tại.
- Chứng minh không hoàn chỉnh: Các mô hình bắt đầu một chứng minh một cách chính xác nhưng không thể đi đến kết thúc.
Ngoài ra còn có một khoảng cách giữa lập luận không chính thức và lập luận chính thức. Các mô hình hoạt động tốt hơn khi sử dụng ngôn ngữ tự nhiên thay vì mã code nghiêm ngặt.
Điểm số thấp ở toán học trình độ Tiến sĩ cho thấy một giới hạn đối với AI hiện nay. Các mô hình tiên phong hiện nay vẫn thiếu chiều sâu để thực hiện các chứng minh chính thức nghiêm ngặt trong phân tích.
Benchmark này sẽ theo dõi liệu các mô hình tương lai từ OpenAI hay Anthropic có thể vượt qua mốc 20% ở các bài toán khó hơn hay không.
Nguồn: https://arxiv.org
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi