𝗠𝗔-𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧-𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀
നിലവിലെ AI മോഡലുകൾക്ക് ഉന്നതതല ഗണിതശാസ്ത്രത്തിൽ പ്രയാസമുണ്ട്.
MA-ProofBench എന്ന പുതിയ ബെഞ്ച്മാർക്ക് ഗണിത വിശകലനത്തിലെ (mathematical analysis) തിയറം പ്രൂവിംഗ് (theorem proving) പരിശോധിക്കുന്നു. യുക്തിസഹമായി ചിന്തിക്കാനുള്ള കഴിവിൽ (reasoning skills) വലിയൊരു വിടവ് ഉണ്ടെന്ന് ഇതിന്റെ ഫലങ്ങൾ കാണിക്കുന്നു.
താഴെ പറയുന്ന സ്കോറുകളോടെ GPT-5.5 ഈ പരിശോധനകളിൽ മുന്നിലെത്തി:
- അണ്ടർഗ്രാജുവേറ്റ് പ്രശ്നങ്ങളിൽ (Level I) 16%.
- PhD തലത്തിലുള്ള പ്രശ്നങ്ങളിൽ (Level II) 5%.
മറ്റ് മിക്ക മോഡലുകളും PhD തലത്തിലുള്ള പ്രശ്നങ്ങളിൽ 0% ന് അടുത്താണ് സ്കോർ ചെയ്തത്.
6 വിഷയങ്ങളിലായി 200 തിയറമുകൾ ഈ ബെഞ്ച്മാർക്കിൽ ഉൾപ്പെടുന്നു. മെഷർ തിയറി (measure theory), കോംപ്ലക്സ് അനാലിസിസ് (complex analysis) എന്നിവയാണ് ഇതിൽ ഉൾപ്പെടുന്ന പ്രധാന വിഷയങ്ങൾ.
മോഡലുകൾ പരാജയപ്പെടാൻ പ്രധാനമായും രണ്ട് കാരണങ്ങളാണ് ഗവേഷകർ കണ്ടെത്തിയത്:
- Mathlib hallucinations: മോഡലുകൾ ശരിയാണെന്ന് തോന്നിക്കുന്ന രീതിയിൽ Lean കോഡ് എഴുതുന്നുണ്ടെങ്കിലും, നിലവിലില്ലാത്ത ടൂളുകളാണ് ഉപയോഗിക്കുന്നത്.
- Incomplete proofs: മോഡലുകൾ ഒരു തെളിവ് (proof) ശരിയായി തുടങ്ങുന്നുണ്ടെങ്കിലും അത് പൂർത്തിയാക്കാൻ കഴിയാതെ വരുന്നു.
ഇൻഫോർമൽ (informal), ഫോർമൽ (formal) റീസണിംഗിനിടയിലും ഒരു വിടവുണ്ട്. കർശനമായ കോഡിന് പകരം സ്വാഭാവിക ഭാഷ (natural language) ഉപയോഗിക്കുമ്പോൾ മോഡലുകൾ മികച്ച രീതിയിൽ പ്രവർത്തിക്കുന്നു.
PhD തലത്തിലുള്ള ഗണിതശാസ്ത്രത്തിലെ കുറഞ്ഞ സ്കോറുകൾ നിലവിലെ AI-യുടെ പരിമിതികളെ കാണിക്കുന്നു. വിശകലനത്തിലെ (analysis) കർശനമായ ഫോർമൽ പ്രൂഫുകൾക്ക് ആവശ്യമായ ആഴം ഇന്നത്തെ അത്യാധുനിക മോഡലുകൾക്ക് (frontier models) ഇല്ല.
OpenAI അല്ലെങ്കിൽ Anthropic എന്നിവയിൽ നിന്നുള്ള ഭാവി മോഡലുകൾ കഠിനമായ പ്രശ്നങ്ങളിൽ 20% എന്ന മാർക്ക് മറികടക്കുമോ എന്ന് ഈ ബെഞ്ച്മാർക്ക് നിരീക്ഷിക്കും.
ഉറവിടം: https://arxiv.org
ഓപ്ഷണൽ ലേണിംഗ് കമ്മ്യൂണിറ്റി: https://t.me/GyaanSetuAi