𝗠𝗔-𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧-𝟱.𝟱 𝗠𝗲𝗻𝗰𝗮𝗽𝗮𝗶 𝟭𝟲% 𝗱𝗮𝗹𝗮𝗺 𝗔𝗻𝗮𝗹𝗶𝘀𝗶𝘀 𝗠𝗮𝘁𝗲𝗺𝗮𝘁𝗶𝗸

Model AI semasa bergelut dengan matematik lanjutan.

Satu penanda aras baharu yang dipanggil MA-ProofBench menguji pembuktian teorem dalam analisis matematik. Keputusan menunjukkan jurang yang besar dalam kemahiran penaakulan.

GPT-5.5 menerajui ujian dengan skor berikut:

Kebanyakan model lain mencatatkan skor hampir 0% bagi masalah peringkat PhD.

Penanda aras ini merangkumi 200 teorem merentasi 6 topik. Topik-topik ini termasuk teori ukuran dan analisis kompleks.

Penyelidik mendapati dua sebab utama mengapa model gagal:

Terdapat juga jurang antara penaakulan tidak formal dan formal. Model menunjukkan prestasi yang lebih baik apabila menggunakan bahasa semula jadi berbanding kod yang ketat.

Skor rendah dalam matematik peringkat PhD menunjukkan had bagi AI semasa. Model perintis hari ini kekurangan kedalaman untuk pembuktian formal yang rapi dalam analisis.

Penanda aras ini akan memantau sama ada model masa hadapan daripada OpenAI atau Anthropic dapat melepasi tanda 20% bagi masalah yang lebih sukar.

Sumber: https://arxiv.org

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi