MA-ProofBench: ಗಣಿತ ವಿಶ್ಲೇಷಣೆಯಲ್ಲಿ (Math Analysis) GPT-5.5 16% ತಲುಪಿದೆ
ಪ್ರಸ್ತುತ AI ಮಾದರಿಗಳು ಸುಧಾರಿತ ಗಣಿತದ ಸಮಸ್ಯೆಗಳನ್ನು ಎದುರಿಸಲು ಕಷ್ಟಪಡುತ್ತಿವೆ.
MA-ProofBench ಎಂಬ ಹೊಸ ಬೆಂಚ್ಮಾರ್ಕ್ ಗಣಿತ ವಿಶ್ಲೇಷಣೆಯಲ್ಲಿ (mathematical analysis) ಪ್ರಮೇಯಗಳನ್ನು ಸಾಬೀತುಪಡಿಸುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಪರೀಕ್ಷಿಸುತ್ತದೆ. ಇದರ ಫಲಿತಾಂಶಗಳು ತಾರ್ಕಿಕ ಕೌಶಲಗಳಲ್ಲಿನ ದೊಡ್ಡ ಅಂತರವನ್ನು ತೋರಿಸುತ್ತವೆ.
GPT-5.5 ಈ ಕೆಳಗಿನ ಸ್ಕೋರ್ಗಳೊಂದಿಗೆ ಪರೀಕ್ಷೆಗಳಲ್ಲಿ ಮುಂಚೂಣಿಯಲ್ಲಿದೆ:
- ಪದವಿ ಮಟ್ಟದ ಸಮಸ್ಯೆಗಳಲ್ಲಿ (Level I) 16%.
- PhD ಮಟ್ಟದ ಸಮಸ್ಯೆಗಳಲ್ಲಿ (Level II) 5%.
ಉಳಿದ ಹೆಚ್ಚಿನ ಮಾದರಿಗಳು PhD ಮಟ್ಟದ ಸಮಸ್ಯೆಗಳಲ್ಲಿ 0% ರಷ್ಟು ಅಂಕಗಳನ್ನು ಪಡೆದಿವೆ.
ಈ ಬೆಂಚ್ಮಾರ್ಕ್ 6 ವಿಷಯಗಳ ವ್ಯಾಪ್ತಿಯಲ್ಲಿ 200 ಪ್ರಮೇಯಗಳನ್ನು ಒಳಗೊಂಡಿದೆ. ಈ ವಿಷಯಗಳು measure theory ಮತ್ತು complex analysis ಅನ್ನು ಒಳಗೊಂಡಿವೆ.
ಮಾದರಿಗಳು ವಿಫಲವಾಗಲು ಸಂಶೋಧಕರು ಎರಡು ಮುಖ್ಯ ಕಾರಣಗಳನ್ನು ಕಂಡುಕೊಂಡಿದ್ದಾರೆ:
- Mathlib ಭ್ರಮೆಗಳು (hallucinations): ಮಾದರಿಗಳು Lean ಕೋಡ್ ಅನ್ನು ಸರಿಯಾಗಿರುವಂತೆ ಬರೆಯುತ್ತವೆ ಆದರೆ ಅಸ್ತಿತ್ವದಲ್ಲಿಲ್ಲದ ಪರಿಕರಗಳನ್ನು ಬಳಸುತ್ತವೆ.
- ಅಪೂರ್ಣ ಸಾಬೀತುಗಳು (Incomplete proofs): ಮಾದರಿಗಳು ಸಾಬೀತುಪಡಿಸುವ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಸರಿಯಾಗಿ ಪ್ರಾರಂಭಿಸುತ್ತವೆ ಆದರೆ ಕೊನೆಯಲ್ಲಿ ವಿಫಲವಾಗುತ್ತವೆ.
ಅನೌಪಚಾರಿಕ (informal) ಮತ್ತು ಔಪಚಾರಿಕ (formal) ತಾರ್ಕಿಕತೆಯ ನಡುವೆ ಕೂಡ ಅಂತರವಿದೆ. ಮಾದರಿಗಳು ಕಟ್ಟುನಿಟ್ಟಾದ ಕೋಡ್ ಬದಲಿಗೆ ನೈಸರ್ಗಿಕ ಭಾಷೆಯನ್ನು ಬಳಸಿದಾಗ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ.
PhD ಮಟ್ಟದ ಗಣಿತದಲ್ಲಿನ ಕಡಿಮೆ ಅಂಕಗಳು ಪ್ರಸ್ತುತ AI ಸಾಮರ್ಥ್ಯದ ಮಿತಿಯನ್ನು ತೋರಿಸುತ್ತವೆ. ಇಂದಿನ ಅತ್ಯಾಧುನಿಕ (frontier) ಮಾದರಿಗಳು ವಿಶ್ಲೇಷಣೆಯಲ್ಲಿ ಕಟ್ಟುನಿಟ್ಟಾದ ಔಪಚಾರಿಕ ಸಾಬೀತುಗಳಿಗಾಗಿ ಅಗತ್ಯವಿರುವ ಆಳವನ್ನು ಹೊಂದಿಲ್ಲ.
OpenAI ಅಥವಾ Anthropic ನ ಭವಿಷ್ಯದ ಮಾದರಿಗಳು ಕಠಿಣ ಸಮಸ್ಯೆಗಳಲ್ಲಿ 20% ಮಿತಿಯನ್ನು ದಾಟಬಲ್ಲವೇ ಎಂಬುದನ್ನು ಈ ಬೆಂಚ್ಮಾರ್ಕ್ ಗಮನಿಸುತ್ತದೆ.
ಮೂಲ: https://arxiv.org
ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi