MA-ProofBench: ಗಣಿತ ವಿಶ್ಲೇಷಣೆಯಲ್ಲಿ (Math Analysis) GPT-5.5 16% ತಲುಪಿದೆ

ಪ್ರಸ್ತುತ AI ಮಾದರಿಗಳು ಸುಧಾರಿತ ಗಣಿತದ ಸಮಸ್ಯೆಗಳನ್ನು ಎದುರಿಸಲು ಕಷ್ಟಪಡುತ್ತಿವೆ.

MA-ProofBench ಎಂಬ ಹೊಸ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಗಣಿತ ವಿಶ್ಲೇಷಣೆಯಲ್ಲಿ (mathematical analysis) ಪ್ರಮೇಯಗಳನ್ನು ಸಾಬೀತುಪಡಿಸುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಪರೀಕ್ಷಿಸುತ್ತದೆ. ಇದರ ಫಲಿತಾಂಶಗಳು ತಾರ್ಕಿಕ ಕೌಶಲಗಳಲ್ಲಿನ ದೊಡ್ಡ ಅಂತರವನ್ನು ತೋರಿಸುತ್ತವೆ.

GPT-5.5 ಈ ಕೆಳಗಿನ ಸ್ಕೋರ್‌ಗಳೊಂದಿಗೆ ಪರೀಕ್ಷೆಗಳಲ್ಲಿ ಮುಂಚೂಣಿಯಲ್ಲಿದೆ:

ಉಳಿದ ಹೆಚ್ಚಿನ ಮಾದರಿಗಳು PhD ಮಟ್ಟದ ಸಮಸ್ಯೆಗಳಲ್ಲಿ 0% ರಷ್ಟು ಅಂಕಗಳನ್ನು ಪಡೆದಿವೆ.

ಈ ಬೆಂಚ್‌ಮಾರ್ಕ್ 6 ವಿಷಯಗಳ ವ್ಯಾಪ್ತಿಯಲ್ಲಿ 200 ಪ್ರಮೇಯಗಳನ್ನು ಒಳಗೊಂಡಿದೆ. ಈ ವಿಷಯಗಳು measure theory ಮತ್ತು complex analysis ಅನ್ನು ಒಳಗೊಂಡಿವೆ.

ಮಾದರಿಗಳು ವಿಫಲವಾಗಲು ಸಂಶೋಧಕರು ಎರಡು ಮುಖ್ಯ ಕಾರಣಗಳನ್ನು ಕಂಡುಕೊಂಡಿದ್ದಾರೆ:

ಅನೌಪಚಾರಿಕ (informal) ಮತ್ತು ಔಪಚಾರಿಕ (formal) ತಾರ್ಕಿಕತೆಯ ನಡುವೆ ಕೂಡ ಅಂತರವಿದೆ. ಮಾದರಿಗಳು ಕಟ್ಟುನಿಟ್ಟಾದ ಕೋಡ್ ಬದಲಿಗೆ ನೈಸರ್ಗಿಕ ಭಾಷೆಯನ್ನು ಬಳಸಿದಾಗ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ.

PhD ಮಟ್ಟದ ಗಣಿತದಲ್ಲಿನ ಕಡಿಮೆ ಅಂಕಗಳು ಪ್ರಸ್ತುತ AI ಸಾಮರ್ಥ್ಯದ ಮಿತಿಯನ್ನು ತೋರಿಸುತ್ತವೆ. ಇಂದಿನ ಅತ್ಯಾಧುನಿಕ (frontier) ಮಾದರಿಗಳು ವಿಶ್ಲೇಷಣೆಯಲ್ಲಿ ಕಟ್ಟುನಿಟ್ಟಾದ ಔಪಚಾರಿಕ ಸಾಬೀತುಗಳಿಗಾಗಿ ಅಗತ್ಯವಿರುವ ಆಳವನ್ನು ಹೊಂದಿಲ್ಲ.

OpenAI ಅಥವಾ Anthropic ನ ಭವಿಷ್ಯದ ಮಾದರಿಗಳು ಕಠಿಣ ಸಮಸ್ಯೆಗಳಲ್ಲಿ 20% ಮಿತಿಯನ್ನು ದಾಟಬಲ್ಲವೇ ಎಂಬುದನ್ನು ಈ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಗಮನಿಸುತ್ತದೆ.

ಮೂಲ: https://arxiv.org

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi