MA-ProofBench: GPT-5.5 ਨੇ ਮੈਥ ਐਨਾਲਿਸਿਸ ਵਿੱਚ 16% ਸਕੋਰ ਕੀਤਾ

ਮੌਜੂਦਾ AI ਮਾਡਲਾਂ ਨੂੰ ਉੱਨਤ ਗਣਿਤ (advanced math) ਵਿੱਚ ਮੁਸ਼ਕਲਾਂ ਆ ਰਹੀਆਂ ਹਨ।

MA-ProofBench ਨਾਮ ਦਾ ਇੱਕ ਨਵਾਂ ਬੈਂਚਮਾਰਕ ਮੈਥੇਮੈਟੀਕਲ ਐਨਾਲਿਸਿਸ ਵਿੱਚ ਥਿਊਰਮ ਸਾਬਤ ਕਰਨ ਦੀ ਪ੍ਰਕਿਰਿਆ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ। ਨਤੀਜੇ ਤਰਕ ਸ਼ਕਤੀ (reasoning skills) ਵਿੱਚ ਇੱਕ ਵੱਡਾ ਅੰਤਰ ਦਰਸਾਉਂਦੇ ਹਨ।

GPT-5.5 ਨੇ ਇਹਨਾਂ ਸਕੋਰਾਂ ਨਾਲ ਟੈਸਟਾਂ ਵਿੱਚ ਮੋਹਰੀ ਰਿਹਾ:

ਬਾਕੀ ਜ਼ਿਆਦਾਤਰ ਮਾਡਲਾਂ ਨੇ PhD-ਪੱਧਰ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ 'ਤੇ ਲਗਭਗ 0% ਸਕੋਰ ਕੀਤਾ।

ਇਸ ਬੈਂਚਮਾਰਕ ਵਿੱਚ 6 ਵਿਸ਼ਿਆਂ ਦੇ 200 ਥਿਊਰਮ ਸ਼ਾਮਲ ਹਨ। ਇਹਨਾਂ ਵਿਸ਼ਿਆਂ ਵਿੱਚ measure theory ਅਤੇ complex analysis ਸ਼ਾਮਲ ਹਨ।

ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਮਾਡਲਾਂ ਦੇ ਅਸਫਲ ਹੋਣ ਦੇ ਦੋ ਮੁੱਖ ਕਾਰਨ ਲੱਭੇ ਹਨ:

ਅਣੌਪਚਾਰਿਕ (informal) ਅਤੇ ਰਸਮੀ (formal) ਤਰਕ ਵਿਚਕਾਰ ਵੀ ਇੱਕ ਅੰਤਰ ਹੈ। ਜਦੋਂ ਮਾਡਲ ਸਖ਼ਤ ਕੋਡ ਦੀ ਬਜਾਏ ਕੁਦਰਤੀ ਭਾਸ਼ਾ (natural language) ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ, ਤਾਂ ਉਹ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ।

PhD-ਪੱਧਰ ਦੇ ਗਣਿਤ 'ਤੇ ਘੱਟ ਸਕੋਰ ਮੌਜੂਦਾ AI ਦੀ ਸੀਮਾ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ। ਅੱਜ ਦੇ ਅਤਿ-ਆਧੁਨਿਕ (frontier) ਮਾਡਲਾਂ ਵਿੱਚ ਐਨਾਲਿਸਿਸ ਵਿੱਚ ਸਖ਼ਤ ਰਸਮੀ ਪ੍ਰੂਫਾਂ ਲਈ ਲੋੜੀਂਦੀ ਡੂੰਘਾਈ ਦੀ ਕਮੀ ਹੈ।

ਇਹ ਬੈਂਚਮਾਰਕ ਇਸ ਗੱਲ ਦੀ ਨਿਗਰਾਨੀ ਕਰੇਗਾ ਕਿ ਕੀ OpenAI ਜਾਂ Anthropic ਦੇ ਭਵਿੱਖ ਦੇ ਮਾਡਲ ਔਖੀਆਂ ਸਮੱਸਿਆਵਾਂ 'ਤੇ 20% ਦੀ ਮਾਰਕ ਨੂੰ ਪਾਰ ਕਰ ਸਕਦੇ ਹਨ।

ਸਰੋਤ: https://arxiv.org

ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi