MA-ProofBench: கணித ஆய்வில் (Math Analysis) GPT-5.5 16% மதிப்பெண் பெற்றது

தற்போதைய AI மாதிரிகள் மேம்பட்ட கணிதத்தில் சிரமப்படுகின்றன.

MA-ProofBench எனப்படும் புதிய பெஞ்ச்மார்க், கணித ஆய்வில் (mathematical analysis) தேற்றங்களை நிரூபிக்கும் திறனைச் சோதிக்கிறது. இதன் முடிவுகள் தர்க்கரீதியான சிந்தனைத் திறனில் (reasoning skills) உள்ள மிகப்பெரிய இடைவெளியைக் காட்டுகின்றன.

GPT-5.5 பின்வரும் மதிப்பெண்களுடன் சோதனைகளில் முன்னிலை வகித்தது:

மற்ற பெரும்பாலான மாதிரிகள் PhD அளவிலான கணக்குகளில் 0% க்கு அருகிலேயே மதிப்பெண்களைப் பெற்றன.

இந்த பெஞ்ச்மார்க் 6 தலைப்புகளில் 200 தேற்றங்களை உள்ளடக்கியது. இந்தத் தலைப்புகளில் measure theory மற்றும் complex analysis ஆகியவை அடங்கும்.

மாதிரிகள் தோல்வியடைவதற்கு ஆராய்ச்சியாளர்கள் இரண்டு முக்கிய காரணங்களைக் கண்டறிந்துள்ளனர்:

முறைசாரா (informal) மற்றும் முறையான (formal) தர்க்கங்களுக்கு இடையேயும் ஒரு இடைவெளி உள்ளது. கடுமையான code-க்கு பதிலாக இயல்பான மொழியைப் (natural language) பயன்படுத்தும்போது மாதிரிகள் சிறப்பாகச் செயல்படுகின்றன.

PhD அளவிலான கணிதத்தில் கிடைத்துள்ள குறைந்த மதிப்பெண்கள், தற்போதைய AI-ன் வரம்பைக் காட்டுகின்றன. இன்றைய முன்னணி (frontier) மாதிரிகள் ஆய்வில் (analysis) துல்லியமான முறையான நிரூபணங்களைச் செய்வதற்கான ஆழமான அறிவைக் கொண்டிருக்கவில்லை.

OpenAI அல்லது Anthropic நிறுவனங்களின் எதிர்கால மாதிரிகள் கடினமான கணக்குகளில் 20% என்ற இலக்கைத் தாண்டிச் செல்கின்றனவா என்பதை இந்த பெஞ்ச்மார்க் கண்காணிக்கும்.

ஆதாரம்: https://arxiv.org

விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi