MA-ProofBench: GPT-5.5 ਨੇ ਮੈਥ ਐਨਾਲਿਸਿਸ ਵਿੱਚ 16% ਸਕੋਰ ਕੀਤਾ
ਮੌਜੂਦਾ AI ਮਾਡਲਾਂ ਨੂੰ ਉੱਨਤ ਗਣਿਤ (advanced math) ਵਿੱਚ ਮੁਸ਼ਕਲਾਂ ਆ ਰਹੀਆਂ ਹਨ।
MA-ProofBench ਨਾਮ ਦਾ ਇੱਕ ਨਵਾਂ ਬੈਂਚਮਾਰਕ ਮੈਥੇਮੈਟੀਕਲ ਐਨਾਲਿਸਿਸ ਵਿੱਚ ਥਿਊਰਮ ਸਾਬਤ ਕਰਨ ਦੀ ਪ੍ਰਕਿਰਿਆ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ। ਨਤੀਜੇ ਤਰਕ ਸ਼ਕਤੀ (reasoning skills) ਵਿੱਚ ਇੱਕ ਵੱਡਾ ਅੰਤਰ ਦਰਸਾਉਂਦੇ ਹਨ।
GPT-5.5 ਨੇ ਇਹਨਾਂ ਸਕੋਰਾਂ ਨਾਲ ਟੈਸਟਾਂ ਵਿੱਚ ਮੋਹਰੀ ਰਿਹਾ:
- ਅੰਡਰਗ੍ਰੈਜੂਏਟ ਸਮੱਸਿਆਵਾਂ (Level I) 'ਤੇ 16%।
- PhD-ਪੱਧਰ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ (Level II) 'ਤੇ 5%।
ਬਾਕੀ ਜ਼ਿਆਦਾਤਰ ਮਾਡਲਾਂ ਨੇ PhD-ਪੱਧਰ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ 'ਤੇ ਲਗਭਗ 0% ਸਕੋਰ ਕੀਤਾ।
ਇਸ ਬੈਂਚਮਾਰਕ ਵਿੱਚ 6 ਵਿਸ਼ਿਆਂ ਦੇ 200 ਥਿਊਰਮ ਸ਼ਾਮਲ ਹਨ। ਇਹਨਾਂ ਵਿਸ਼ਿਆਂ ਵਿੱਚ measure theory ਅਤੇ complex analysis ਸ਼ਾਮਲ ਹਨ।
ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਮਾਡਲਾਂ ਦੇ ਅਸਫਲ ਹੋਣ ਦੇ ਦੋ ਮੁੱਖ ਕਾਰਨ ਲੱਭੇ ਹਨ:
- Mathlib hallucinations: ਮਾਡਲ ਅਜਿਹਾ Lean ਕੋਡ ਲਿਖਦੇ ਹਨ ਜੋ ਦੇਖਣ ਵਿੱਚ ਸਹੀ ਲੱਗਦਾ ਹੈ ਪਰ ਉਹ ਅਜਿਹੇ ਟੂਲਸ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ ਜੋ ਮੌਜੂਦ ਨਹੀਂ ਹਨ।
- ਅਧੂਰੇ ਪ੍ਰੂਫ (Incomplete proofs): ਮਾਡਲ ਪ੍ਰੂਫ ਦੀ ਸ਼ੁਰੂਆਤ ਸਹੀ ਤਰੀਕੇ ਨਾਲ ਕਰਦੇ ਹਨ ਪਰ ਅੰਤ ਤੱਕ ਪਹੁੰਚਣ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ।
ਅਣੌਪਚਾਰਿਕ (informal) ਅਤੇ ਰਸਮੀ (formal) ਤਰਕ ਵਿਚਕਾਰ ਵੀ ਇੱਕ ਅੰਤਰ ਹੈ। ਜਦੋਂ ਮਾਡਲ ਸਖ਼ਤ ਕੋਡ ਦੀ ਬਜਾਏ ਕੁਦਰਤੀ ਭਾਸ਼ਾ (natural language) ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ, ਤਾਂ ਉਹ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ।
PhD-ਪੱਧਰ ਦੇ ਗਣਿਤ 'ਤੇ ਘੱਟ ਸਕੋਰ ਮੌਜੂਦਾ AI ਦੀ ਸੀਮਾ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ। ਅੱਜ ਦੇ ਅਤਿ-ਆਧੁਨਿਕ (frontier) ਮਾਡਲਾਂ ਵਿੱਚ ਐਨਾਲਿਸਿਸ ਵਿੱਚ ਸਖ਼ਤ ਰਸਮੀ ਪ੍ਰੂਫਾਂ ਲਈ ਲੋੜੀਂਦੀ ਡੂੰਘਾਈ ਦੀ ਕਮੀ ਹੈ।
ਇਹ ਬੈਂਚਮਾਰਕ ਇਸ ਗੱਲ ਦੀ ਨਿਗਰਾਨੀ ਕਰੇਗਾ ਕਿ ਕੀ OpenAI ਜਾਂ Anthropic ਦੇ ਭਵਿੱਖ ਦੇ ਮਾਡਲ ਔਖੀਆਂ ਸਮੱਸਿਆਵਾਂ 'ਤੇ 20% ਦੀ ਮਾਰਕ ਨੂੰ ਪਾਰ ਕਰ ਸਕਦੇ ਹਨ।
ਸਰੋਤ: https://arxiv.org
ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi