MA-ProofBench: GPT-5.5 Yafikia 16% katika Uchambuzi wa Hisabati

Mifumo ya sasa ya AI inapata ugumu na hisabati ya hali ya juu.

Kipimo kipya kinachoitwa MA-ProofBench kinajaribu uthibitishaji wa nadharia katika uchambuzi wa hisabati. Matokeo yanaonyesha pengo kubwa katika ujuzi wa kufikiri.

GPT-5.5 iliongoza majaribio hayo kwa alama hizi:

Mifumo mingine mingi ilipata karibu 0% kwenye matatizo ya kiwango cha PhD.

Kipimo hiki kinajumuisha nadharia 200 katika mada 6. Mada hizi ni pamoja na nadharia ya kipimo (measure theory) na uchambuzi tata (complex analysis).

Watafiti waligundua sababu kuu mbili kwa nini mifumo hii inafeli:

Pia kuna pengo kati ya mantiki isiyo rasmi na mantiki rasmi. Mifumo hufanya vizuri zaidi wanapotumia lugha ya asili badala ya kodi kali.

Alama za chini kwenye hisabati ya kiwango cha PhD zinaonyesha kikomo cha AI ya sasa. Mifumo ya kisasa zaidi ya kilele haina kina kinachohitajika kwa uthibitisho rasmi wa kina katika uchambuzi.

Kipimo hiki kitafuatilia ikiwa mifumo ya baadaye kutoka OpenAI au Anthropic itaweza kuvuka alama ya 20% kwenye matatizo magumu zaidi.

Chanzo: https://arxiv.org

Jumuiya ya hiari ya kujifunza: https://t.me/GyaanSetuAi