MA ProofBench: GPT 5.5 Mencapai 16% dalam Analisis Matematik

📅3 hours ago⏱1 min read

𝗠𝗔-𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧-𝟱.𝟱 𝗠𝗲𝗻𝗰𝗮𝗽𝗮𝗶 𝟭𝟲% 𝗱𝗮𝗹𝗮𝗺 𝗔𝗻𝗮𝗹𝗶𝘀𝗶𝘀 𝗠𝗮𝘁𝗲𝗺𝗮𝘁𝗶𝗸

Model AI semasa bergelut dengan matematik lanjutan.

Satu penanda aras baharu yang dipanggil MA-ProofBench menguji pembuktian teorem dalam analisis matematik. Keputusan menunjukkan jurang yang besar dalam kemahiran penaakulan.

GPT-5.5 menerajui ujian dengan skor berikut:

16% bagi masalah peringkat sarjana muda (Tahap I).
5% bagi masalah peringkat PhD (Tahap II).

Kebanyakan model lain mencatatkan skor hampir 0% bagi masalah peringkat PhD.

Penanda aras ini merangkumi 200 teorem merentasi 6 topik. Topik-topik ini termasuk teori ukuran dan analisis kompleks.

Penyelidik mendapati dua sebab utama mengapa model gagal:

Halusinasi Mathlib: Model menulis kod Lean yang kelihatan betul tetapi menggunakan alatan yang tidak wujud.
Pembuktian tidak lengkap: Model memulakan pembuktian dengan betul tetapi gagal menyelesaikannya sehingga tamat.

Terdapat juga jurang antara penaakulan tidak formal dan formal. Model menunjukkan prestasi yang lebih baik apabila menggunakan bahasa semula jadi berbanding kod yang ketat.

Skor rendah dalam matematik peringkat PhD menunjukkan had bagi AI semasa. Model perintis hari ini kekurangan kedalaman untuk pembuktian formal yang rapi dalam analisis.

Penanda aras ini akan memantau sama ada model masa hadapan daripada OpenAI atau Anthropic dapat melepasi tanda 20% bagi masalah yang lebih sukar.

Sumber: https://arxiv.org

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi

MA ProofBench: GPT 5.5 Mencapai 16% dalam Analisis Matematik

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗔𝗜 𝗥𝗲𝗮𝘀𝗼𝗻𝗶𝗻𝗴 𝗔𝘀 𝗔𝗻 𝗘𝗾𝘂𝗶𝗹𝗶𝗯𝗿𝗶𝘂𝗺 𝗣𝗼𝗶𝗻𝘁

𝗧𝗵𝗲 𝗠𝘆𝘁𝗵 𝗢𝗳 𝗧𝗵𝗲 𝗦𝘁𝗿𝗼𝗻𝗴𝗲𝘀𝘁 𝗠𝗼𝗱𝗲𝗹

𝗧𝗲𝘀𝘁𝗶𝗻𝗴 𝗡𝗼𝗻 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗪𝗵𝗲𝗻 𝗮 𝗛𝗮𝗻𝗱𝘄𝗿𝗶𝘁𝘁𝗲𝗻 𝗧𝗵𝗲𝘀𝗶𝘀 𝗕𝗲𝗰𝗼𝗺𝗲𝘀 𝟵𝟵 𝗣𝗲𝗿𝗰𝗲𝗻𝘁 𝗔𝗜