ಪ್ರಮಾಣಿತ AI ಬೆಂಚ್ಮಾರ್ಕ್ಗಳು ಏಜೆಂಟ್ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ವ್ಯವಸ್ಥಿತವಾಗಿ ಏಕೆ ಕಡಿಮೆ ಅಂದಾಜಿಸುತ್ತವೆ
ಪ್ರಸ್ತುತ AI ಮೌಲ್ಯಮಾಪನ ವಿಧಾನಗಳು ಫ್ರಾಂಟಿಯರ್ ಮಾಡೆಲ್ಗಳ (frontier models) ನಿಜವಾದ ಸಾಮರ್ಥ್ಯವನ್ನು ಗುರುತಿಸುವಲ್ಲಿ ವಿಫಲವಾಗುತ್ತಿವೆ; ಅಂದರೆ, ಕಂಪ್ಯೂಟೇಶನಲ್ ಬಜೆಟ್ನ ಕೊರತೆಯನ್ನು ಬುದ್ಧಿವಂತಿಕೆಯ ಕೊರತೆಯೆಂದು ತಪ್ಪಾಗಿ ಭಾವಿಸುತ್ತಿವೆ. UK ಯ AI Security Institute (AISI), AI ಏಜೆಂಟ್ ಕಾರ್ಯಕ್ಷಮತೆಯು ಒಂದು ಸ್ಥಿರ ಸ್ಕೋರ್ ಆಗಿರುವುದಿಲ್ಲ, ಬದಲಾಗಿ 'ಟೆಸ್ಟ್-ಟೈಮ್ ಕಂಪ್ಯೂಟ್' (test-time compute) ಹೆಚ್ಚಾದಂತೆ ವೇಗವಾಗಿ ಏರಿಕೆಯಾಗುವ ಸ್ಕೇಲಿಂಗ್ ಕರ್ವ್ (scaling curve) ಎಂದು ಬಹಿರಂಗಪಡಿಸಿದೆ.
ಕಂಪ್ಯೂಟ್-ಸಾಮರ್ಥ್ಯದ ವಕ್ರರೇಖೆ (The Compute-Capability Curve)
AISI ಸಂಶೋಧನೆಯ ಪ್ರಮುಖ ಅಂಶವೆಂದರೆ, AI ಏಜೆಂಟ್ನ ಯಶಸ್ಸಿನ ದರವು ಅದರ "ಟೆಸ್ಟ್-ಟೈಮ್ ಕಂಪ್ಯೂಟ್"ಗೆ ಅವಿಭಾಜ್ಯವಾಗಿ ಸಂಬಂಧಿಸಿದೆ—ಅಂದರೆ ಒಂದು ಕಾರ್ಯವನ್ನು ಮಾಡುವಾಗ ಏಜೆಂಟ್ಗೆ ಬಳಸಲು ಅನುಮತಿಸಲಾದ ಪ್ರೊಸೆಸಿಂಗ್ ಪವರ್ ಮತ್ತು ಟೋಕನ್ಗಳ ಪ್ರಮಾಣ. ಸಂಶೋಧಕರು ಮೌಲ್ಯಮಾಪನಗಳಿಗೆ ಸ್ಥಿರ ಬಜೆಟ್ ಮಿತಿಯನ್ನು ಅನ್ವಯಿಸಿದಾಗ, ಅವರು ಮಾಡೆಲ್ನ ಗರಿಷ್ಠ ಸಾಮರ್ಥ್ಯದ ಬದಲಾಗಿ ಅದರ ಕನಿಷ್ಠ ಸಾಮರ್ಥ್ಯವನ್ನು ಅಳೆಯುತ್ತಿದ್ದಾರೆ ಎಂದರ್ಥ.
ಈ ವಿದ್ಯಮಾನವು ಹಲವಾರು ಪ್ರಮುಖ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ ಕಂಡುಬರುತ್ತದೆ. TerminalBench 2.0 ಮತ್ತು SWE-Bench Pro ನಂತಹ ಬೆಂಚ್ಮಾರ್ಕ್ಗಳನ್ನು ಬಳಸುವ ಸಾಫ್ಟ್ವೇರ್ ಎಂಜಿನಿಯರಿಂಗ್ ಕಾರ್ಯಗಳಲ್ಲಿ, ಟೋಕನ್ ಬಜೆಟ್ ಅನ್ನು ಒಂದು ಮಿಲಿಯನ್ನಿಂದ ಹತ್ತು ಮಿಲಿಯನ್ಗೆ ಹೆಚ್ಚಿಸಿದಾಗ ಯಶಸ್ಸಿನ ದರವು ಸುಮಾರು 25% ರಷ್ಟು ಏರಿತು. ಅದೇ ರೀತಿ, "Humanity's Last Exam" ನಲ್ಲಿನ ಗಣಿತ ಮತ್ತು ಶೈಕ್ಷಣಿಕ ಕಾರ್ಯಗಳಲ್ಲಿ, ಬಜೆಟ್ ಐದು ಮಿಲಿಯನ್ ಟೋಕನ್ಗಳಿಗೆ ತಲುಪಿದಾಗ 22% ಲಾಭ ಕಂಡುಬಂದಿದೆ.
ಮಾನವ ಮತ್ತು AI ಕಾರ್ಯ ಸಮಯದ ಪವರ್ ಲಾ (The Power Law of Human vs. AI Task Time)
ಒಬ್ಬ ಮಾನವ ತಜ್ಞನಿಗೆ ಒಂದು ಕಾರ್ಯಕ್ಕೆ ಬೇಕಾಗುವ ಸಮಯ ಮತ್ತು AI ಏಜೆಂಟ್ಗೆ ಬೇಕಾಗುವ ಟೋಕನ್ ಬಳಕೆಯ ನಡುವೆ ನೇರ ಸಂಬಂಧವಿದೆಯೆಂದು ಈ ಅಧ್ಯಯನವು ಸ್ಥಾಪಿಸಿದೆ. ಈ ಸಂಬಂಧವು ಪವರ್ ಲಾ (power law) ಅನ್ನು ಅನುಸರಿಸುತ್ತದೆ: ಒಬ್ಬ ಮಾನವನಿಗೆ ಒಂದು ನಿಮಿಷ ತೆಗೆದುಕೊಳ್ಳುವ ಕಾರ್ಯವು ಏಜೆಂಟ್ಗೆ ಸಾವಿರಾರು ಟೋಕನ್ಗಳನ್ನು ವೆಚ್ಚ ಮಾಡುತ್ತದೆ, ಆದರೆ ಒಂದು ಗಂಟೆಯ ಕಾರ್ಯವು ಲಕ್ಷಾಂತರ ಟೋಕನ್ಗಳನ್ನು ವೆಚ್ಚ ಮಾಡುತ್ತದೆ.
ಇದು ಪ್ರಸ್ತುತ ಪರೀಕ್ಷೆಯಲ್ಲಿ ದೊಡ್ಡ ಅಂಧಾಕಾರವನ್ನು (blind spot) ಸೃಷ್ಟಿಸುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, AISI ಸೈಬರ್ ಸೆಕ್ಯೂರಿಟಿ ಕಾರ್ಯವಾದ "The Last Ones" ಗೆ ಸುಮಾರು 20 ಗಂಟೆಗಳ ಮಾನವ ಪರಿಣತಿಯ ಅಗತ್ಯವಿದೆ. ಸಂಸ್ಥೆಯು ಪರೀಕ್ಷಿಸಿದ ಯಾವುದೇ ಮಾಡೆಲ್ 30 ಮಿಲಿಯನ್ ಟೋಕನ್ಗಳಿಗಿಂತ ಕಡಿಮೆ ಬಳಸಿ ಈ ಕಾರ್ಯವನ್ನು ಪರಿಹರಿಸಲು ಸಾಧ್ಯವಾಗಲಿಲ್ಲ. ಪ್ರಮಾಣಿತ, ಕಡಿಮೆ ಬಜೆಟ್ನ ಮೌಲ್ಯಮಾಪನಗಳನ್ನು ಬಳಸುವ ಮೂಲಕ, ಸಂಶೋಧಕರು ಅತ್ಯಂತ ಸಂಕೀರ್ಣ ಮತ್ತು ನಿರ್ಣಾಯಕ ಕಾರ್ಯಗಳನ್ನು ಅಳತೆ ಪ್ರಕ್ರಿಯೆಯಿಂದ ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಹೊರಗಿಡುತ್ತಿದ್ದಾರೆ.
ಪ್ರಗತಿಯ ವೇಗವರ್ಧನೆ ಮತ್ತು ಸುಧಾರಣೆಯ ಮೂರು ಅಕ್ಷಗಳು
ಫ್ರಾಂಟಿಯರ್ ಮಾಡೆಲ್ಗಳ "ಟೈಮ್ ಹೊರೈಜನ್" (time horizon)—ಅಂದರೆ ಅವು ನಿರ್ವಹಿಸಬಲ್ಲ ಕಾರ್ಯಗಳ ಸಂಕೀರ್ಣತೆ—ಹಿಂದೆ ಅಂದುಕೊಂಡಿದ್ದಕ್ಕಿಂತ ವೇಗವಾಗಿ ವಿಸ್ತರಿಸುತ್ತಿದೆ ಎಂದು AISI ಗಮನಿಸಿದೆ. ಸ್ಥಿರವಾದ 2.5 ಮಿಲಿಯನ್ ಟೋಕನ್ ಬಜೆಟ್ನಲ್ಲಿ ಸೈಬರ್ ಕಾರ್ಯಗಳ ಟೈಮ್ ಹೊರೈಜನ್ ಪ್ರತಿ 4.7 ತಿಂಗಳಿಗೊಮ್ಮೆ ದ್ವಿಗುಣಗೊಳ್ಳುತ್ತದೆ ಎಂದು ಹಿಂದಿನ ಅಂದಾಜುಗಳು ಸೂಚಿಸಿದ್ದವು, ಆದರೆ ಹೆಚ್ಚಿನ ಬಜೆಟ್ಗಳಲ್ಲಿ ಆ ದರವು ಗಮನಾರ್ಹವಾಗಿ ವೇಗಗೊಳ್ಳುತ್ತದೆ. 50 ಮಿಲಿಯನ್ ಟೋಕನ್ಗಳಲ್ಲಿ, ದ್ವಿಗುಣಗೊಳ್ಳುವ ದರವು ಪ್ರತಿ 40 ರಿಂದ 50 ದಿನಗಳಿಗೆ ವೇಗಗೊಳ್ಳುತ್ತದೆ.
ಹೊಸ ಮಾಡೆಲ್ಗಳು (ಪರೀಕ್ಷಿಸಲಾದ GPT ಮತ್ತು Claude ಸರಣಿಗಳಂತಹವು) ಮೂರು ನಿರ್ದಿಷ್ಟ ಆಯಾಮಗಳಲ್ಲಿ ಸುಧಾರಣೆಯನ್ನು ತೋರಿಸುತ್ತವೆ:
- Reach (ವ್ಯಾಪ್ತಿ): ಹೆಚ್ಚು ಕಠಿಣವಾದ ಕಾರ್ಯಗಳನ್ನು ಎದುರಿಸುವ ಸಾಮರ್ಥ್ಯ.
- Reliability (ವಿಶ್ವಾಸಾರ್ಹತೆ): ಒಂದೇ ಕಾರ್ಯವನ್ನು ಹೆಚ್ಚು ಸ್ಥಿರವಾಗಿ ಪರಿಹರಿಸುವ ಸಾಮರ್ಥ್ಯ.
- Efficiency (ದಕ್ಷತೆ): ಕಡಿಮೆ ಟೋಕನ್ಗಳನ್ನು ಬಳಸಿ ಕಾರ್ಯಗಳನ್ನು ಪರಿಹರಿಸುವ ಸಾಮರ್ಥ್ಯ.
AI ಸುರಕ್ಷತೆ ಮತ್ತು ನಿಯೋಜನೆಗೆ ಪರಿಣಾಮಗಳು
ಈ ಸಂಶೋಧನೆಯು AI ಮೌಲ್ಯಮಾಪನದ ಮಾದರಿಯನ್ನು "ಸ್ಥಿರ ಸ್ಕೋರ್ಗಳಿಂದ" "ಕಂಪ್ಯೂಟ್-ಅವೇರ್ ಕರ್ವ್ಗಳಿಗೆ" (compute-aware curves) ಬದಲಾಯಿಸುತ್ತದೆ. ಡೆವಲಪರ್ಗಳು ಮತ್ತು ಸಂಸ್ಥಾಪಕರಿಗೆ, ಇದರರ್ಥ ಮಾಡೆಲ್ನ ಉಪಯುಕ್ತತೆಯು ಕೇವಲ ಅದರ ತರಬೇತಿಯ ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿಲ್ಲ, ಬದಲಾಗಿ ನಿಯೋಜನೆಯ ಸಮಯದಲ್ಲಿ ಎಷ್ಟು ಇನ್ಫರೆನ್ಸ್ ಕಂಪ್ಯೂಟ್ (inference compute) ಹಂಚಿಕೆ ಮಾಡಲಾಗುತ್ತದೆ ಎಂಬುದರ ಮೇಲೂ ಅವಲಂಬಿತವಾಗಿದೆ.
ಪ್ರತಿ ಟೋಕನ್ನ ವೆಚ್ಚವು ಇಳಿಮುಖವಾಗುತ್ತಾ ಸಾಗುತ್ತಿದ್ದಂತೆ, ಹಿಂದೆ ಆರ್ಥಿಕವಾಗಿ ಅಸಾಧ್ಯವೆಂದು ಕಂಡ ಸಾಮರ್ಥ್ಯಗಳು ಪ್ರಮಾಣಿತವಾಗಲಿವೆ. AI ಸುರಕ್ಷತೆ ಮತ್ತು ಭದ್ರತೆಗೆ ಸಂಬಂಧಿಸಿದಂತೆ, ನಿಯಂತ್ರಕರು ಮತ್ತು ಕಂಪನಿಗಳು ಸಾಂಪ್ರದಾಯಿಕ, ಕಡಿಮೆ ಬಜೆಟ್ನ ಬೆಂಚ್ಮಾರ್ಕ್ಗಳನ್ನು ಅವಲಂಬಿಸಿದರೆ, ಸ್ವಾಯತ್ತ ಏಜೆಂಟ್ಗಳಿಗೆ (autonomous agents) ಸಂಬಂಧಿಸಿದ ಅಪಾಯಗಳು—ಸಂಕೀರ್ಣ ಸೈಬರ್ ದಾಳಿಗಳಂತಹವು—ಗಣನೀಯವಾಗಿ ಕಡಿಮೆ ಅಂದಾಜಿಸಲ್ಪಡಬಹುದು.
ಪ್ರಮುಖ ಅಂಶಗಳು
- ಬೆಂಚ್ಮಾರ್ಕ್ಗಳು ದಾರಿ ತಪ್ಪಿಸಬಹುದು: ಸ್ಥಿರ ಟೋಕನ್ ಬಜೆಟ್ಗಳು ಮಾಡೆಲ್ನ ಕನಿಷ್ಠ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಮಾತ್ರ ತೋರಿಸುತ್ತವೆ, ಇದು AI ಏಜೆಂಟ್ಗಳು ಸಾಧಿಸಬಲ್ಲ ಗರಿಷ್ಠ ಸಾಮರ್ಥ್ಯವನ್ನು ವ್ಯವಸ್ಥಿತವಾಗಿ ಕಡಿಮೆ ಅಂದಾಜಿಸುತ್ತದೆ.
- ಕಂಪ್ಯೂಟ್ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ: ಟೆಸ್ಟ್-ಟೈಮ್ ಕಂಪ್ಯೂಟ್ ಬಜೆಟ್ ಹೆಚ್ಚಾದಂತೆ ಸಾಫ್ಟ್ವೇರ್ ಎಂಜಿನಿಯರಿಂಗ್ ಮತ್ತು ಗಣಿತದಲ್ಲಿ ಯಶಸ್ಸಿನ ದರವು ಗಣನೀಯವಾಗಿ ಏರುತ್ತದೆ.
- "ದ್ವಿಗುಣಗೊಳ್ಳುವ" ದರವು ವೇಗಗೊಳ್ಳುತ್ತಿದೆ: ಹೆಚ್ಚಿನ ಕಂಪ್ಯೂಟ್ ಬಜೆಟ್ಗಳಲ್ಲಿ, ಫ್ರಾಂಟಿಯರ್ ಮಾಡೆಲ್ಗಳು ಸಂಕೀರ್ಣ ಕಾರ್ಯಗಳನ್ನು ಕಲಿಯುವ ದರವು ಹಿಂದಿನ ಅಂದಾಜಿಗಿಂತ ಹೆಚ್ಚು ವೇಗವಾಗಿದೆ.
