𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

📅3 hours ago⏱1 min read

MA-ProofBench: GPT-5.5 Yafikia 16% katika Uchambuzi wa Hisabati

Mifumo ya sasa ya AI inapata ugumu na hisabati ya hali ya juu.

Kipimo kipya kinachoitwa MA-ProofBench kinajaribu uthibitishaji wa nadharia katika uchambuzi wa hisabati. Matokeo yanaonyesha pengo kubwa katika ujuzi wa kufikiri.

GPT-5.5 iliongoza majaribio hayo kwa alama hizi:

16% kwenye matatizo ya shahada ya kwanza (Ngazi ya I).
5% kwenye matatizo ya kiwango cha PhD (Ngazi ya II).

Mifumo mingine mingi ilipata karibu 0% kwenye matatizo ya kiwango cha PhD.

Kipimo hiki kinajumuisha nadharia 200 katika mada 6. Mada hizi ni pamoja na nadharia ya kipimo (measure theory) na uchambuzi tata (complex analysis).

Watafiti waligundua sababu kuu mbili kwa nini mifumo hii inafeli:

Hallucinations za Mathlib: Mifumo huandika kodi ya Lean inayoonekana sahihi lakini inatumia zana zisizopo.
Uthibitisho usio kamili: Mifumo huanza uthibitisho kwa usahihi lakini inashindwa kufikia mwisho.

Pia kuna pengo kati ya mantiki isiyo rasmi na mantiki rasmi. Mifumo hufanya vizuri zaidi wanapotumia lugha ya asili badala ya kodi kali.

Alama za chini kwenye hisabati ya kiwango cha PhD zinaonyesha kikomo cha AI ya sasa. Mifumo ya kisasa zaidi ya kilele haina kina kinachohitajika kwa uthibitisho rasmi wa kina katika uchambuzi.

Kipimo hiki kitafuatilia ikiwa mifumo ya baadaye kutoka OpenAI au Anthropic itaweza kuvuka alama ya 20% kwenye matatizo magumu zaidi.

Chanzo: https://arxiv.org

Jumuiya ya hiari ya kujifunza: https://t.me/GyaanSetuAi

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗔𝗜 𝗥𝗲𝗮𝘀𝗼𝗻𝗶𝗻𝗴 𝗔𝘀 𝗔𝗻 𝗘𝗾𝘂𝗶𝗹𝗶𝗯𝗿𝗶𝘂𝗺 𝗣𝗼𝗶𝗻𝘁

𝗧𝗵𝗲 𝗠𝘆𝘁𝗵 𝗢𝗳 𝗧𝗵𝗲 𝗦𝘁𝗿𝗼𝗻𝗴𝗲𝘀𝘁 𝗠𝗼𝗱𝗲𝗹

𝗧𝗲𝘀𝘁𝗶𝗻𝗴 𝗡𝗼𝗻 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗪𝗵𝗲𝗻 𝗮 𝗛𝗮𝗻𝗱𝘄𝗿𝗶𝘁𝘁𝗲𝗻 𝗧𝗵𝗲𝘀𝗶𝘀 𝗕𝗲𝗰𝗼𝗺𝗲𝘀 𝟵𝟵 𝗣𝗲𝗿𝗰𝗲𝗻𝘁 𝗔𝗜