ಪ್ರಮಾಣಿತ AI ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಏಜೆಂಟ್ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಏಕೆ ವ್ಯವಸ್ಥಿತವಾಗಿ ಕಡಿಮೆ ಅಂದಾಜಿಸುತ್ತವೆ?

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial23 ಗಂಟೆಗಳ ಹಿಂದೆ3min read

ಪ್ರಮಾಣಿತ AI ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಏಜೆಂಟ್ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಏಕೆ ವ್ಯವಸ್ಥಿತವಾಗಿ ಕಡಿಮೆ ಅಂದಾಜಿಸುತ್ತವೆ?

In this article

ಪ್ರಮಾಣಿತ AI ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಏಜೆಂಟ್ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ವ್ಯವಸ್ಥಿತವಾಗಿ ಏಕೆ ಕಡಿಮೆ ಅಂದಾಜಿಸುತ್ತವೆ

ಪ್ರಸ್ತುತ AI ಮೌಲ್ಯಮಾಪನ ವಿಧಾನಗಳು ಫ್ರಾಂಟಿಯರ್ ಮಾಡೆಲ್‌ಗಳ (frontier models) ನಿಜವಾದ ಸಾಮರ್ಥ್ಯವನ್ನು ಗುರುತಿಸುವಲ್ಲಿ ವಿಫಲವಾಗುತ್ತಿವೆ; ಅಂದರೆ, ಕಂಪ್ಯೂಟೇಶನಲ್ ಬಜೆಟ್‌ನ ಕೊರತೆಯನ್ನು ಬುದ್ಧಿವಂತಿಕೆಯ ಕೊರತೆಯೆಂದು ತಪ್ಪಾಗಿ ಭಾವಿಸುತ್ತಿವೆ. UK ಯ AI Security Institute (AISI), AI ಏಜೆಂಟ್ ಕಾರ್ಯಕ್ಷಮತೆಯು ಒಂದು ಸ್ಥಿರ ಸ್ಕೋರ್ ಆಗಿರುವುದಿಲ್ಲ, ಬದಲಾಗಿ 'ಟೆಸ್ಟ್-ಟೈಮ್ ಕಂಪ್ಯೂಟ್' (test-time compute) ಹೆಚ್ಚಾದಂತೆ ವೇಗವಾಗಿ ಏರಿಕೆಯಾಗುವ ಸ್ಕೇಲಿಂಗ್ ಕರ್ವ್ (scaling curve) ಎಂದು ಬಹಿರಂಗಪಡಿಸಿದೆ.

ಕಂಪ್ಯೂಟ್-ಸಾಮರ್ಥ್ಯದ ವಕ್ರರೇಖೆ (The Compute-Capability Curve)

AISI ಸಂಶೋಧನೆಯ ಪ್ರಮುಖ ಅಂಶವೆಂದರೆ, AI ಏಜೆಂಟ್‌ನ ಯಶಸ್ಸಿನ ದರವು ಅದರ "ಟೆಸ್ಟ್-ಟೈಮ್ ಕಂಪ್ಯೂಟ್"ಗೆ ಅವಿಭಾಜ್ಯವಾಗಿ ಸಂಬಂಧಿಸಿದೆ—ಅಂದರೆ ಒಂದು ಕಾರ್ಯವನ್ನು ಮಾಡುವಾಗ ಏಜೆಂಟ್‌ಗೆ ಬಳಸಲು ಅನುಮತಿಸಲಾದ ಪ್ರೊಸೆಸಿಂಗ್ ಪವರ್ ಮತ್ತು ಟೋಕನ್‌ಗಳ ಪ್ರಮಾಣ. ಸಂಶೋಧಕರು ಮೌಲ್ಯಮಾಪನಗಳಿಗೆ ಸ್ಥಿರ ಬಜೆಟ್ ಮಿತಿಯನ್ನು ಅನ್ವಯಿಸಿದಾಗ, ಅವರು ಮಾಡೆಲ್‌ನ ಗರಿಷ್ಠ ಸಾಮರ್ಥ್ಯದ ಬದಲಾಗಿ ಅದರ ಕನಿಷ್ಠ ಸಾಮರ್ಥ್ಯವನ್ನು ಅಳೆಯುತ್ತಿದ್ದಾರೆ ಎಂದರ್ಥ.

ಈ ವಿದ್ಯಮಾನವು ಹಲವಾರು ಪ್ರಮುಖ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ ಕಂಡುಬರುತ್ತದೆ. TerminalBench 2.0 ಮತ್ತು SWE-Bench Pro ನಂತಹ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳನ್ನು ಬಳಸುವ ಸಾಫ್ಟ್‌ವೇರ್ ಎಂಜಿನಿಯರಿಂಗ್ ಕಾರ್ಯಗಳಲ್ಲಿ, ಟೋಕನ್ ಬಜೆಟ್ ಅನ್ನು ಒಂದು ಮಿಲಿಯನ್‌ನಿಂದ ಹತ್ತು ಮಿಲಿಯನ್‌ಗೆ ಹೆಚ್ಚಿಸಿದಾಗ ಯಶಸ್ಸಿನ ದರವು ಸುಮಾರು 25% ರಷ್ಟು ಏರಿತು. ಅದೇ ರೀತಿ, "Humanity's Last Exam" ನಲ್ಲಿನ ಗಣಿತ ಮತ್ತು ಶೈಕ್ಷಣಿಕ ಕಾರ್ಯಗಳಲ್ಲಿ, ಬಜೆಟ್ ಐದು ಮಿಲಿಯನ್ ಟೋಕನ್‌ಗಳಿಗೆ ತಲುಪಿದಾಗ 22% ಲಾಭ ಕಂಡುಬಂದಿದೆ.

ಮಾನವ ಮತ್ತು AI ಕಾರ್ಯ ಸಮಯದ ಪವರ್ ಲಾ (The Power Law of Human vs. AI Task Time)

ಒಬ್ಬ ಮಾನವ ತಜ್ಞನಿಗೆ ಒಂದು ಕಾರ್ಯಕ್ಕೆ ಬೇಕಾಗುವ ಸಮಯ ಮತ್ತು AI ಏಜೆಂಟ್‌ಗೆ ಬೇಕಾಗುವ ಟೋಕನ್ ಬಳಕೆಯ ನಡುವೆ ನೇರ ಸಂಬಂಧವಿದೆಯೆಂದು ಈ ಅಧ್ಯಯನವು ಸ್ಥಾಪಿಸಿದೆ. ಈ ಸಂಬಂಧವು ಪವರ್ ಲಾ (power law) ಅನ್ನು ಅನುಸರಿಸುತ್ತದೆ: ಒಬ್ಬ ಮಾನವನಿಗೆ ಒಂದು ನಿಮಿಷ ತೆಗೆದುಕೊಳ್ಳುವ ಕಾರ್ಯವು ಏಜೆಂಟ್‌ಗೆ ಸಾವಿರಾರು ಟೋಕನ್‌ಗಳನ್ನು ವೆಚ್ಚ ಮಾಡುತ್ತದೆ, ಆದರೆ ಒಂದು ಗಂಟೆಯ ಕಾರ್ಯವು ಲಕ್ಷಾಂತರ ಟೋಕನ್‌ಗಳನ್ನು ವೆಚ್ಚ ಮಾಡುತ್ತದೆ.

ಇದು ಪ್ರಸ್ತುತ ಪರೀಕ್ಷೆಯಲ್ಲಿ ದೊಡ್ಡ ಅಂಧಾಕಾರವನ್ನು (blind spot) ಸೃಷ್ಟಿಸುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, AISI ಸೈಬರ್ ಸೆಕ್ಯೂರಿಟಿ ಕಾರ್ಯವಾದ "The Last Ones" ಗೆ ಸುಮಾರು 20 ಗಂಟೆಗಳ ಮಾನವ ಪರಿಣತಿಯ ಅಗತ್ಯವಿದೆ. ಸಂಸ್ಥೆಯು ಪರೀಕ್ಷಿಸಿದ ಯಾವುದೇ ಮಾಡೆಲ್ 30 ಮಿಲಿಯನ್ ಟೋಕನ್‌ಗಳಿಗಿಂತ ಕಡಿಮೆ ಬಳಸಿ ಈ ಕಾರ್ಯವನ್ನು ಪರಿಹರಿಸಲು ಸಾಧ್ಯವಾಗಲಿಲ್ಲ. ಪ್ರಮಾಣಿತ, ಕಡಿಮೆ ಬಜೆಟ್‌ನ ಮೌಲ್ಯಮಾಪನಗಳನ್ನು ಬಳಸುವ ಮೂಲಕ, ಸಂಶೋಧಕರು ಅತ್ಯಂತ ಸಂಕೀರ್ಣ ಮತ್ತು ನಿರ್ಣಾಯಕ ಕಾರ್ಯಗಳನ್ನು ಅಳತೆ ಪ್ರಕ್ರಿಯೆಯಿಂದ ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಹೊರಗಿಡುತ್ತಿದ್ದಾರೆ.

ಪ್ರಗತಿಯ ವೇಗವರ್ಧನೆ ಮತ್ತು ಸುಧಾರಣೆಯ ಮೂರು ಅಕ್ಷಗಳು

ಫ್ರಾಂಟಿಯರ್ ಮಾಡೆಲ್‌ಗಳ "ಟೈಮ್ ಹೊರೈಜನ್" (time horizon)—ಅಂದರೆ ಅವು ನಿರ್ವಹಿಸಬಲ್ಲ ಕಾರ್ಯಗಳ ಸಂಕೀರ್ಣತೆ—ಹಿಂದೆ ಅಂದುಕೊಂಡಿದ್ದಕ್ಕಿಂತ ವೇಗವಾಗಿ ವಿಸ್ತರಿಸುತ್ತಿದೆ ಎಂದು AISI ಗಮನಿಸಿದೆ. ಸ್ಥಿರವಾದ 2.5 ಮಿಲಿಯನ್ ಟೋಕನ್ ಬಜೆಟ್‌ನಲ್ಲಿ ಸೈಬರ್ ಕಾರ್ಯಗಳ ಟೈಮ್ ಹೊರೈಜನ್ ಪ್ರತಿ 4.7 ತಿಂಗಳಿಗೊಮ್ಮೆ ದ್ವಿಗುಣಗೊಳ್ಳುತ್ತದೆ ಎಂದು ಹಿಂದಿನ ಅಂದಾಜುಗಳು ಸೂಚಿಸಿದ್ದವು, ಆದರೆ ಹೆಚ್ಚಿನ ಬಜೆಟ್‌ಗಳಲ್ಲಿ ಆ ದರವು ಗಮನಾರ್ಹವಾಗಿ ವೇಗಗೊಳ್ಳುತ್ತದೆ. 50 ಮಿಲಿಯನ್ ಟೋಕನ್‌ಗಳಲ್ಲಿ, ದ್ವಿಗುಣಗೊಳ್ಳುವ ದರವು ಪ್ರತಿ 40 ರಿಂದ 50 ದಿನಗಳಿಗೆ ವೇಗಗೊಳ್ಳುತ್ತದೆ.

ಹೊಸ ಮಾಡೆಲ್‌ಗಳು (ಪರೀಕ್ಷಿಸಲಾದ GPT ಮತ್ತು Claude ಸರಣಿಗಳಂತಹವು) ಮೂರು ನಿರ್ದಿಷ್ಟ ಆಯಾಮಗಳಲ್ಲಿ ಸುಧಾರಣೆಯನ್ನು ತೋರಿಸುತ್ತವೆ:

Reach (ವ್ಯಾಪ್ತಿ): ಹೆಚ್ಚು ಕಠಿಣವಾದ ಕಾರ್ಯಗಳನ್ನು ಎದುರಿಸುವ ಸಾಮರ್ಥ್ಯ.
Reliability (ವಿಶ್ವಾಸಾರ್ಹತೆ): ಒಂದೇ ಕಾರ್ಯವನ್ನು ಹೆಚ್ಚು ಸ್ಥಿರವಾಗಿ ಪರಿಹರಿಸುವ ಸಾಮರ್ಥ್ಯ.
Efficiency (ದಕ್ಷತೆ): ಕಡಿಮೆ ಟೋಕನ್‌ಗಳನ್ನು ಬಳಸಿ ಕಾರ್ಯಗಳನ್ನು ಪರಿಹರಿಸುವ ಸಾಮರ್ಥ್ಯ.

AI ಸುರಕ್ಷತೆ ಮತ್ತು ನಿಯೋಜನೆಗೆ ಪರಿಣಾಮಗಳು

ಈ ಸಂಶೋಧನೆಯು AI ಮೌಲ್ಯಮಾಪನದ ಮಾದರಿಯನ್ನು "ಸ್ಥಿರ ಸ್ಕೋರ್‌ಗಳಿಂದ" "ಕಂಪ್ಯೂಟ್-ಅವೇರ್ ಕರ್ವ್‌ಗಳಿಗೆ" (compute-aware curves) ಬದಲಾಯಿಸುತ್ತದೆ. ಡೆವಲಪರ್‌ಗಳು ಮತ್ತು ಸಂಸ್ಥಾಪಕರಿಗೆ, ಇದರರ್ಥ ಮಾಡೆಲ್‌ನ ಉಪಯುಕ್ತತೆಯು ಕೇವಲ ಅದರ ತರಬೇತಿಯ ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿಲ್ಲ, ಬದಲಾಗಿ ನಿಯೋಜನೆಯ ಸಮಯದಲ್ಲಿ ಎಷ್ಟು ಇನ್ಫರೆನ್ಸ್ ಕಂಪ್ಯೂಟ್ (inference compute) ಹಂಚಿಕೆ ಮಾಡಲಾಗುತ್ತದೆ ಎಂಬುದರ ಮೇಲೂ ಅವಲಂಬಿತವಾಗಿದೆ.

ಪ್ರತಿ ಟೋಕನ್‌ನ ವೆಚ್ಚವು ಇಳಿಮುಖವಾಗುತ್ತಾ ಸಾಗುತ್ತಿದ್ದಂತೆ, ಹಿಂದೆ ಆರ್ಥಿಕವಾಗಿ ಅಸಾಧ್ಯವೆಂದು ಕಂಡ ಸಾಮರ್ಥ್ಯಗಳು ಪ್ರಮಾಣಿತವಾಗಲಿವೆ. AI ಸುರಕ್ಷತೆ ಮತ್ತು ಭದ್ರತೆಗೆ ಸಂಬಂಧಿಸಿದಂತೆ, ನಿಯಂತ್ರಕರು ಮತ್ತು ಕಂಪನಿಗಳು ಸಾಂಪ್ರದಾಯಿಕ, ಕಡಿಮೆ ಬಜೆಟ್‌ನ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳನ್ನು ಅವಲಂಬಿಸಿದರೆ, ಸ್ವಾಯತ್ತ ಏಜೆಂಟ್‌ಗಳಿಗೆ (autonomous agents) ಸಂಬಂಧಿಸಿದ ಅಪಾಯಗಳು—ಸಂಕೀರ್ಣ ಸೈಬರ್ ದಾಳಿಗಳಂತಹವು—ಗಣನೀಯವಾಗಿ ಕಡಿಮೆ ಅಂದಾಜಿಸಲ್ಪಡಬಹುದು.

ಪ್ರಮುಖ ಅಂಶಗಳು

ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ದಾರಿ ತಪ್ಪಿಸಬಹುದು: ಸ್ಥಿರ ಟೋಕನ್ ಬಜೆಟ್‌ಗಳು ಮಾಡೆಲ್‌ನ ಕನಿಷ್ಠ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಮಾತ್ರ ತೋರಿಸುತ್ತವೆ, ಇದು AI ಏಜೆಂಟ್‌ಗಳು ಸಾಧಿಸಬಲ್ಲ ಗರಿಷ್ಠ ಸಾಮರ್ಥ್ಯವನ್ನು ವ್ಯವಸ್ಥಿತವಾಗಿ ಕಡಿಮೆ ಅಂದಾಜಿಸುತ್ತದೆ.
ಕಂಪ್ಯೂಟ್ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ: ಟೆಸ್ಟ್-ಟೈಮ್ ಕಂಪ್ಯೂಟ್ ಬಜೆಟ್ ಹೆಚ್ಚಾದಂತೆ ಸಾಫ್ಟ್‌ವೇರ್ ಎಂಜಿನಿಯರಿಂಗ್ ಮತ್ತು ಗಣಿತದಲ್ಲಿ ಯಶಸ್ಸಿನ ದರವು ಗಣನೀಯವಾಗಿ ಏರುತ್ತದೆ.
"ದ್ವಿಗುಣಗೊಳ್ಳುವ" ದರವು ವೇಗಗೊಳ್ಳುತ್ತಿದೆ: ಹೆಚ್ಚಿನ ಕಂಪ್ಯೂಟ್ ಬಜೆಟ್‌ಗಳಲ್ಲಿ, ಫ್ರಾಂಟಿಯರ್ ಮಾಡೆಲ್‌ಗಳು ಸಂಕೀರ್ಣ ಕಾರ್ಯಗಳನ್ನು ಕಲಿಯುವ ದರವು ಹಿಂದಿನ ಅಂದಾಜಿಗಿಂತ ಹೆಚ್ಚು ವೇಗವಾಗಿದೆ.

ಪ್ರಮಾಣಿತ AI ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಏಜೆಂಟ್ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಏಕೆ ವ್ಯವಸ್ಥಿತವಾಗಿ ಕಡಿಮೆ ಅಂದಾಜಿಸುತ್ತವೆ?

ಪ್ರಮಾಣಿತ AI ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಏಜೆಂಟ್ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ವ್ಯವಸ್ಥಿತವಾಗಿ ಏಕೆ ಕಡಿಮೆ ಅಂದಾಜಿಸುತ್ತವೆ

ಕಂಪ್ಯೂಟ್-ಸಾಮರ್ಥ್ಯದ ವಕ್ರರೇಖೆ (The Compute-Capability Curve)

ಮಾನವ ಮತ್ತು AI ಕಾರ್ಯ ಸಮಯದ ಪವರ್ ಲಾ (The Power Law of Human vs. AI Task Time)

ಪ್ರಗತಿಯ ವೇಗವರ್ಧನೆ ಮತ್ತು ಸುಧಾರಣೆಯ ಮೂರು ಅಕ್ಷಗಳು

AI ಸುರಕ್ಷತೆ ಮತ್ತು ನಿಯೋಜನೆಗೆ ಪರಿಣಾಮಗಳು

ಪ್ರಮುಖ ಅಂಶಗಳು

Continue reading

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

AI Agent Evaluation Ends Too Early

ಏಜೆಂಟಿಕ್ ಎಐನ ಉದಯ: ತಾಂತ್ರಿಕ ತಂಡಗಳು ಆಟೊಮೇಷನ್ ಗಡಿಯನ್ನು ಏಕೆ ಮುನ್ನಡೆಸುತ್ತಿವೆ

ಮುಂಚೂಣಿಯಲ್ಲಿರುವ ಎಐ ಮಾದರಿಗಳು ಹಣಕಾಸಿನ ಟ್ರೈಯಾಜ್ ಪರೀಕ್ಷೆಗಳಲ್ಲಿ ಏಕೆ ವಿಫಲವಾಗುತ್ತವೆ?