MA ProofBench: GPT 5.5 đạt 16% trong phân tích toán học

📅3 hours ago⏱1 min read

MA-ProofBench: GPT-5.5 đạt 16% trong Phân tích Toán học

Các mô hình AI hiện tại đang gặp khó khăn với toán học nâng cao.

Một benchmark mới mang tên MA-ProofBench kiểm tra khả năng chứng minh định lý trong phân tích toán học. Kết quả cho thấy một khoảng cách lớn về kỹ năng lập luận.

GPT-5.5 dẫn đầu các bài kiểm tra với các mức điểm sau:

16% đối với các bài toán trình độ đại học (Cấp độ I).
5% đối với các bài toán trình độ Tiến sĩ (Cấp độ II).

Hầu hết các mô hình khác đạt điểm gần 0% ở các bài toán trình độ Tiến sĩ.

Benchmark này bao gồm 200 định lý thuộc 6 chủ đề. Các chủ đề này bao gồm lý thuyết độ đo và phân tích phức.

Các nhà nghiên cứu đã tìm ra hai lý do chính khiến các mô hình thất bại:

Ảo giác Mathlib: Các mô hình viết mã Lean trông có vẻ đúng nhưng lại sử dụng các công cụ không tồn tại.
Chứng minh không hoàn chỉnh: Các mô hình bắt đầu một chứng minh một cách chính xác nhưng không thể đi đến kết thúc.

Ngoài ra còn có một khoảng cách giữa lập luận không chính thức và lập luận chính thức. Các mô hình hoạt động tốt hơn khi sử dụng ngôn ngữ tự nhiên thay vì mã code nghiêm ngặt.

Điểm số thấp ở toán học trình độ Tiến sĩ cho thấy một giới hạn đối với AI hiện nay. Các mô hình tiên phong hiện nay vẫn thiếu chiều sâu để thực hiện các chứng minh chính thức nghiêm ngặt trong phân tích.

Benchmark này sẽ theo dõi liệu các mô hình tương lai từ OpenAI hay Anthropic có thể vượt qua mốc 20% ở các bài toán khó hơn hay không.

Nguồn: https://arxiv.org

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi

MA ProofBench: GPT 5.5 đạt 16% trong phân tích toán học

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

Suy luận AI như một điểm cân bằng

𝗧𝗵𝗲 𝗠𝘆𝘁𝗵 𝗢𝗳 𝗧𝗵𝗲 𝗦𝘁𝗿𝗼𝗻𝗴𝗲𝘀𝘁 𝗠𝗼𝗱𝗲𝗹

𝗧𝗲𝘀𝘁𝗶𝗻𝗴 𝗡𝗼𝗻 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

Khi một luận văn viết tay trở thành 99% AI