𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

📅3 hours ago⏱1 min read

MA-ProofBench: கணித ஆய்வில் (Math Analysis) GPT-5.5 16% மதிப்பெண் பெற்றது

தற்போதைய AI மாதிரிகள் மேம்பட்ட கணிதத்தில் சிரமப்படுகின்றன.

MA-ProofBench எனப்படும் புதிய பெஞ்ச்மார்க், கணித ஆய்வில் (mathematical analysis) தேற்றங்களை நிரூபிக்கும் திறனைச் சோதிக்கிறது. இதன் முடிவுகள் தர்க்கரீதியான சிந்தனைத் திறனில் (reasoning skills) உள்ள மிகப்பெரிய இடைவெளியைக் காட்டுகின்றன.

GPT-5.5 பின்வரும் மதிப்பெண்களுடன் சோதனைகளில் முன்னிலை வகித்தது:

இளங்கலை அளவிலான கணக்குகளில் (Level I) 16%.
PhD அளவிலான கணக்குகளில் (Level II) 5%.

மற்ற பெரும்பாலான மாதிரிகள் PhD அளவிலான கணக்குகளில் 0% க்கு அருகிலேயே மதிப்பெண்களைப் பெற்றன.

இந்த பெஞ்ச்மார்க் 6 தலைப்புகளில் 200 தேற்றங்களை உள்ளடக்கியது. இந்தத் தலைப்புகளில் measure theory மற்றும் complex analysis ஆகியவை அடங்கும்.

மாதிரிகள் தோல்வியடைவதற்கு ஆராய்ச்சியாளர்கள் இரண்டு முக்கிய காரணங்களைக் கண்டறிந்துள்ளனர்:

Mathlib hallucinations: மாதிரிகள் பார்ப்பதற்குச் சரியாகத் தோன்றும் Lean code-ஐ எழுதுகின்றன, ஆனால் அவை இல்லாத கருவிகளைப் பயன்படுத்துகின்றன.
Incomplete proofs: மாதிரிகள் ஒரு நிரூபணத்தைத் சரியாகத் தொடங்குகின்றன, ஆனால் அதை முடிவுக்குக் கொண்டுவரத் தவறுகின்றன.

முறைசாரா (informal) மற்றும் முறையான (formal) தர்க்கங்களுக்கு இடையேயும் ஒரு இடைவெளி உள்ளது. கடுமையான code-க்கு பதிலாக இயல்பான மொழியைப் (natural language) பயன்படுத்தும்போது மாதிரிகள் சிறப்பாகச் செயல்படுகின்றன.

PhD அளவிலான கணிதத்தில் கிடைத்துள்ள குறைந்த மதிப்பெண்கள், தற்போதைய AI-ன் வரம்பைக் காட்டுகின்றன. இன்றைய முன்னணி (frontier) மாதிரிகள் ஆய்வில் (analysis) துல்லியமான முறையான நிரூபணங்களைச் செய்வதற்கான ஆழமான அறிவைக் கொண்டிருக்கவில்லை.

OpenAI அல்லது Anthropic நிறுவனங்களின் எதிர்கால மாதிரிகள் கடினமான கணக்குகளில் 20% என்ற இலக்கைத் தாண்டிச் செல்கின்றனவா என்பதை இந்த பெஞ்ச்மார்க் கண்காணிக்கும்.

ஆதாரம்: https://arxiv.org

விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

ஒரு சமநிலை புள்ளியாக AI பகுத்தறிவு

𝗧𝗵𝗲 𝗠𝘆𝘁𝗵 𝗢𝗳 𝗧𝗵𝗲 𝗦𝘁𝗿𝗼𝗻𝗴𝗲𝘀𝘁 𝗠𝗼𝗱𝗲𝗹

𝗧𝗲𝘀𝘁𝗶𝗻𝗴 𝗡𝗼𝗻 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

ஒரு கையால் எழுதப்பட்ட ஆய்வறிக்கை 99 சதவீத AI ஆக மாறும்போது