𝗠𝗔-𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧-𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

നിലവിലെ AI മോഡലുകൾക്ക് ഉന്നതതല ഗണിതശാസ്ത്രത്തിൽ പ്രയാസമുണ്ട്.

MA-ProofBench എന്ന പുതിയ ബെഞ്ച്മാർക്ക് ഗണിത വിശകലനത്തിലെ (mathematical analysis) തിയറം പ്രൂവിംഗ് (theorem proving) പരിശോധിക്കുന്നു. യുക്തിസഹമായി ചിന്തിക്കാനുള്ള കഴിവിൽ (reasoning skills) വലിയൊരു വിടവ് ഉണ്ടെന്ന് ഇതിന്റെ ഫലങ്ങൾ കാണിക്കുന്നു.

താഴെ പറയുന്ന സ്കോറുകളോടെ GPT-5.5 ഈ പരിശോധനകളിൽ മുന്നിലെത്തി:

മറ്റ് മിക്ക മോഡലുകളും PhD തലത്തിലുള്ള പ്രശ്നങ്ങളിൽ 0% ന് അടുത്താണ് സ്കോർ ചെയ്തത്.

6 വിഷയങ്ങളിലായി 200 തിയറമുകൾ ഈ ബെഞ്ച്മാർക്കിൽ ഉൾപ്പെടുന്നു. മെഷർ തിയറി (measure theory), കോംപ്ലക്സ് അനാലിസിസ് (complex analysis) എന്നിവയാണ് ഇതിൽ ഉൾപ്പെടുന്ന പ്രധാന വിഷയങ്ങൾ.

മോഡലുകൾ പരാജയപ്പെടാൻ പ്രധാനമായും രണ്ട് കാരണങ്ങളാണ് ഗവേഷകർ കണ്ടെത്തിയത്:

ഇൻഫോർമൽ (informal), ഫോർമൽ (formal) റീസണിംഗിനിടയിലും ഒരു വിടവുണ്ട്. കർശനമായ കോഡിന് പകരം സ്വാഭാവിക ഭാഷ (natural language) ഉപയോഗിക്കുമ്പോൾ മോഡലുകൾ മികച്ച രീതിയിൽ പ്രവർത്തിക്കുന്നു.

PhD തലത്തിലുള്ള ഗണിതശാസ്ത്രത്തിലെ കുറഞ്ഞ സ്കോറുകൾ നിലവിലെ AI-യുടെ പരിമിതികളെ കാണിക്കുന്നു. വിശകലനത്തിലെ (analysis) കർശനമായ ഫോർമൽ പ്രൂഫുകൾക്ക് ആവശ്യമായ ആഴം ഇന്നത്തെ അത്യാധുനിക മോഡലുകൾക്ക് (frontier models) ഇല്ല.

OpenAI അല്ലെങ്കിൽ Anthropic എന്നിവയിൽ നിന്നുള്ള ഭാവി മോഡലുകൾ കഠിനമായ പ്രശ്നങ്ങളിൽ 20% എന്ന മാർക്ക് മറികടക്കുമോ എന്ന് ഈ ബെഞ്ച്മാർക്ക് നിരീക്ഷിക്കും.

ഉറവിടം: https://arxiv.org

ഓപ്ഷണൽ ലേണിംഗ് കമ്മ്യൂണിറ്റി: https://t.me/GyaanSetuAi