ಪ್ರಮಾಣಿತ AI ಬೆಂಚ್ಮಾರ್ಕ್ಗಳು ಏಜೆಂಟ್ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಏಕೆ ವ್ಯವಸ್ಥಿತವಾಗಿ ಕಡಿಮೆ ಅಂದಾಜಿಸುತ್ತವೆ?
ಪ್ರಮಾಣಿತ AI ಬೆಂಚ್ಮಾರ್ಕ್ಗಳು ಏಜೆಂಟ್ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಏಕೆ ವ್ಯವಸ್ಥಿತವಾಗಿ ಕಡಿಮೆ ಅಂದಾಜಿಸುತ್ತವೆ? ಪ್ರಸ್ತುತ AI ಮೌಲ್ಯಮಾಪನ ವಿಧಾನಗಳು ಫ್ರಾಂಟಿಯರ್ ಮಾಡೆಲ್ಗಳ ನಿಜವಾದ ಸಾಮರ್ಥ್ಯವನ್ನು ಸೆರೆಹಿಡಿಯಲು ವಿಫಲವಾಗುತ್ತಿವೆ, ಮತ್ತು ಹೆಚ್ಚಾಗಿ ತಪ್ಪಾಗಿ...