𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

📅3 hours ago⏱1 min read

MA-ProofBench: GPT-5.5 ਨੇ ਮੈਥ ਐਨਾਲਿਸਿਸ ਵਿੱਚ 16% ਸਕੋਰ ਕੀਤਾ

ਮੌਜੂਦਾ AI ਮਾਡਲਾਂ ਨੂੰ ਉੱਨਤ ਗਣਿਤ (advanced math) ਵਿੱਚ ਮੁਸ਼ਕਲਾਂ ਆ ਰਹੀਆਂ ਹਨ।

MA-ProofBench ਨਾਮ ਦਾ ਇੱਕ ਨਵਾਂ ਬੈਂਚਮਾਰਕ ਮੈਥੇਮੈਟੀਕਲ ਐਨਾਲਿਸਿਸ ਵਿੱਚ ਥਿਊਰਮ ਸਾਬਤ ਕਰਨ ਦੀ ਪ੍ਰਕਿਰਿਆ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ। ਨਤੀਜੇ ਤਰਕ ਸ਼ਕਤੀ (reasoning skills) ਵਿੱਚ ਇੱਕ ਵੱਡਾ ਅੰਤਰ ਦਰਸਾਉਂਦੇ ਹਨ।

GPT-5.5 ਨੇ ਇਹਨਾਂ ਸਕੋਰਾਂ ਨਾਲ ਟੈਸਟਾਂ ਵਿੱਚ ਮੋਹਰੀ ਰਿਹਾ:

ਅੰਡਰਗ੍ਰੈਜੂਏਟ ਸਮੱਸਿਆਵਾਂ (Level I) 'ਤੇ 16%।
PhD-ਪੱਧਰ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ (Level II) 'ਤੇ 5%।

ਬਾਕੀ ਜ਼ਿਆਦਾਤਰ ਮਾਡਲਾਂ ਨੇ PhD-ਪੱਧਰ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ 'ਤੇ ਲਗਭਗ 0% ਸਕੋਰ ਕੀਤਾ।

ਇਸ ਬੈਂਚਮਾਰਕ ਵਿੱਚ 6 ਵਿਸ਼ਿਆਂ ਦੇ 200 ਥਿਊਰਮ ਸ਼ਾਮਲ ਹਨ। ਇਹਨਾਂ ਵਿਸ਼ਿਆਂ ਵਿੱਚ measure theory ਅਤੇ complex analysis ਸ਼ਾਮਲ ਹਨ।

ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਮਾਡਲਾਂ ਦੇ ਅਸਫਲ ਹੋਣ ਦੇ ਦੋ ਮੁੱਖ ਕਾਰਨ ਲੱਭੇ ਹਨ:

Mathlib hallucinations: ਮਾਡਲ ਅਜਿਹਾ Lean ਕੋਡ ਲਿਖਦੇ ਹਨ ਜੋ ਦੇਖਣ ਵਿੱਚ ਸਹੀ ਲੱਗਦਾ ਹੈ ਪਰ ਉਹ ਅਜਿਹੇ ਟੂਲਸ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ ਜੋ ਮੌਜੂਦ ਨਹੀਂ ਹਨ।
ਅਧੂਰੇ ਪ੍ਰੂਫ (Incomplete proofs): ਮਾਡਲ ਪ੍ਰੂਫ ਦੀ ਸ਼ੁਰੂਆਤ ਸਹੀ ਤਰੀਕੇ ਨਾਲ ਕਰਦੇ ਹਨ ਪਰ ਅੰਤ ਤੱਕ ਪਹੁੰਚਣ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ।

ਅਣੌਪਚਾਰਿਕ (informal) ਅਤੇ ਰਸਮੀ (formal) ਤਰਕ ਵਿਚਕਾਰ ਵੀ ਇੱਕ ਅੰਤਰ ਹੈ। ਜਦੋਂ ਮਾਡਲ ਸਖ਼ਤ ਕੋਡ ਦੀ ਬਜਾਏ ਕੁਦਰਤੀ ਭਾਸ਼ਾ (natural language) ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ, ਤਾਂ ਉਹ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ।

PhD-ਪੱਧਰ ਦੇ ਗਣਿਤ 'ਤੇ ਘੱਟ ਸਕੋਰ ਮੌਜੂਦਾ AI ਦੀ ਸੀਮਾ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ। ਅੱਜ ਦੇ ਅਤਿ-ਆਧੁਨਿਕ (frontier) ਮਾਡਲਾਂ ਵਿੱਚ ਐਨਾਲਿਸਿਸ ਵਿੱਚ ਸਖ਼ਤ ਰਸਮੀ ਪ੍ਰੂਫਾਂ ਲਈ ਲੋੜੀਂਦੀ ਡੂੰਘਾਈ ਦੀ ਕਮੀ ਹੈ।

ਇਹ ਬੈਂਚਮਾਰਕ ਇਸ ਗੱਲ ਦੀ ਨਿਗਰਾਨੀ ਕਰੇਗਾ ਕਿ ਕੀ OpenAI ਜਾਂ Anthropic ਦੇ ਭਵਿੱਖ ਦੇ ਮਾਡਲ ਔਖੀਆਂ ਸਮੱਸਿਆਵਾਂ 'ਤੇ 20% ਦੀ ਮਾਰਕ ਨੂੰ ਪਾਰ ਕਰ ਸਕਦੇ ਹਨ।

ਸਰੋਤ: https://arxiv.org

ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗔𝗜 𝗥𝗲𝗮𝘀𝗼𝗻𝗶𝗻𝗴 𝗔𝘀 𝗔𝗻 𝗘𝗾𝘂𝗶𝗹𝗶𝗯𝗿𝗶𝘂𝗺 𝗣𝗼𝗶𝗻𝘁

𝗧𝗵𝗲 𝗠𝘆𝘁𝗵 𝗢𝗳 𝗧𝗵𝗲 𝗦𝘁𝗿𝗼𝗻𝗴𝗲𝘀𝘁 𝗠𝗼𝗱𝗲𝗹

𝗧𝗲𝘀𝘁𝗶𝗻𝗴 𝗡𝗼𝗻 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

ਜਦੋਂ ਇੱਕ ਹੱਥ ਨਾਲ ਲਿਖੀ ਗਈ ਥੀਸਿਸ 99% AI ਬਣ ਜਾਂਦੀ ਹੈ