ಹೊಸ AA-Briefcase ಬೆಂಚ್‌ಮಾರ್ಕ್ ನೈಜ ಜ್ಞಾನದ ಕೆಲಸಗಳಲ್ಲಿ (Knowledge Work) AI ಎದುರಿಸುತ್ತಿರುವ ಸಂಕಷ್ಟವನ್ನು ಬಹಿರಂಗಪಡಿಸಿದೆ

ಪ್ರಮಾಣಿತ ಮೌಲ್ಯಮಾಪನಗಳಲ್ಲಿ (standard evaluations) ಲಾರ್ಜ್ ಲ್ಯಾಂಗ್ವೇಜ್ ಮಾಡೆಲ್‌ಗಳು (LLMs) ಹೆಚ್ಚು ಸಮರ್ಥವಾಗಿ ಕಂಡುಬರುತ್ತಿದ್ದರೂ, ವೃತ್ತಿಪರ ಪರಿಸರಗಳ ಸಂಕೀರ್ಣತೆಗಳಿಗೆ ಅವು ಮೂಲಭೂತವಾಗಿ ಸಿದ್ಧವಾಗಿಲ್ಲ ಎಂದು ಹೊಸ ದತ್ತಾಂಶಗಳು ಸೂಚಿಸುತ್ತಿವೆ. ಮಾದರಿ ಗುರುತಿಸುವಿಕೆ (pattern recognition) ಮತ್ತು ಬಹು-ಹಂತದ, ಮಾಹಿತಿ-ಸಂಮೂಲಿತ ಜ್ಞಾನದ ಕೆಲಸದ (knowledge work) ನೈಜ ಅನುಷ್ಠಾನದ ನಡುವೆ ಇರುವ ಬೃಹತ್ ಅಂತರವನ್ನು ಒಂದು ಕ್ರಾಂತಿಕಾರಿ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಬಹಿರಂಗಪಡಿಸಿದೆ.

AA-Briefcase ಬೆಂಚ್‌ಮಾರ್ಕ್: ನೈಜ ಪ್ರಪಂಚದ ಅನುಕರಣೆ

ಸಾಂಪ್ರದಾಯಿಕ AI ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಹೆಚ್ಚಾಗಿ ಪ್ರತ್ಯೇಕ ಪ್ರಶ್ನೆಗಳು ಅಥವಾ ಸ್ಥಿರ ದತ್ತಾಂಶಗಳ (static datasets) ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿರುತ್ತವೆ, ಇವು ಆಧುನಿಕ ಕಚೇರಿಯ ಗೊಂದಲಮಯ ವಾಸ್ತವವನ್ನು ಪ್ರತಿಬಿಂಬಿಸುವುದಿಲ್ಲ. ಈ ಅಂತರವನ್ನು ತುಂಬಲು, Artificial Analysis ಸಂಸ್ಥೆಯು AA-Briefcase ಬೆಂಚ್‌ಮಾರ್ಕ್ ಅನ್ನು ಪರಿಚಯಿಸಿದೆ. ಇದು ದೀರ್ಘಾವಧಿಯ, ವಾರಗಟ್ಟಲೆ ನಡೆಯುವ ಯೋಜನೆಗಳನ್ನು ಅನುಕರಿಸಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾದ ಕಠಿಣ ಪರೀಕ್ಷಾ ಚೌಕಟ್ಟಾಗಿದೆ.

ಸರಳ ಪ್ರಾಂಪ್ಟ್‌ಗಳ ಬದಲಿಗೆ, Slack ಥ್ರೆಡ್‌ಗಳು, ಇಮೇಲ್ ಚೇನ್‌ಗಳು, ಸಭೆಯ ಟ್ರಾನ್ಸ್‌ಕ್ರಿಪ್ಟ್‌ಗಳು ಮತ್ತು ಬೃಹತ್ ಪ್ರಮಾಣದ ಡೇಟಾ ಎಕ್ಸ್‌ಪೋರ್ಟ್‌ಗಳು ಸೇರಿದಂತೆ ಸಾವಿರಾರು ಚದುರಿದ ಮೂಲ ಫೈಲ್‌ಗಳನ್ನು ನಿರ್ವಹಿಸುವ ಜವಾಬ್ದಾರಿಯನ್ನು ಮಾಡೆಲ್‌ಗಳಿಗೆ ನೀಡಲಾಗುತ್ತದೆ. ಇದು ಮಾಡೆಲ್‌ನು ಉನ್ನತ ಮಟ್ಟದ ತಾರ್ಕಿಕ ಚಿಂತನೆ (reasoning) ನಡೆಸಲು, ವಿಭಿನ್ನ ದತ್ತಾಂಶಗಳನ್ನು ಸಂಶ್ಲೇಷಿಸಲು ಮತ್ತು ಬೃಹತ್, ಅಸಂಘಟಿತ ದತ್ತಾಂಶಗಳ ನಡುವೆ ಸಂದರ್ಭವನ್ನು (context) ಕಾಯ್ದುಕೊಳ್ಳುವ ಅಗತ್ಯವನ್ನು ಉಂಟುಮಾಡುತ್ತದೆ—ಇವು ವಿಶ್ಲೇಷಕರು, ವಕೀಲರು ಮತ್ತು ಎಂಜಿನಿಯರ್‌ಗಳಿಗೆ ಅತ್ಯಗತ್ಯವಾದ ಕೌಶಲ್ಯಗಳಾಗಿವೆ.

ಅತ್ಯುತ್ತಮ ಮಾಡೆಲ್‌ಗಳು ಸಹ ಏಕೆ ವಿಫಲವಾಗುತ್ತಿವೆ

ಕೆಲಸದ ಸ್ಥಳದಲ್ಲಿ ತಕ್ಷಣದ AI ಸ್ವಾಯತ್ತತೆಯನ್ನು (autonomy) ನಿರೀಕ್ಷಿಸುತ್ತಿರುವವರಿಗೆ ಈ ಫಲಿತಾಂಶಗಳು ಎಚ್ಚರಿಕೆಯ ಗಂಟೆಯಾಗಿವೆ. ಪರೀಕ್ಷೆ ನಡೆಸಲಾದ ಅತ್ಯಂತ ಸುಧಾರಿತ ಮಾಡೆಲ್ ಆದ Anthropic ನ Claude Fable 5 ಕೂಡ ನೀಡಲಾದ ಕಾರ್ಯಗಳಲ್ಲಿ ಕೇವಲ 3 ಪ್ರತಿಶತ ಕಾರ್ಯಗಳನ್ನು ಮಾತ್ರ ಸಂಪೂರ್ಣವಾಗಿ ಪರಿಹರಿಸಲು ಸಾಧ್ಯವಾಯಿತು. 91 ನಿರ್ದಿಷ್ಟ ಕಾರ್ಯಗಳಲ್ಲಿ 31 ಕಾರ್ಯಗಳಿಗೂ ಯಾವುದೇ ಮಾಡೆಲ್ 50 ಪ್ರತಿಶತದ ಪಾಸ್ ದರವನ್ನು ತಲುಪಲು ಸಾಧ್ಯವಾಗಲಿಲ್ಲ ಎಂದು ಈ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಬಹಿರಂಗಪಡಿಸಿದೆ.

ಬುದ್ಧಿವಂತಿಕೆ ಹೆಚ್ಚಾದಂತೆ AI ಹೇಗೆ ವಿಫಲವಾಗುತ್ತದೆ ಎಂಬುದರಲ್ಲಿ ಒಂದು ಆಸಕ್ತಿದಾಯಕ ಬದಲಾವಣೆಯನ್ನು ಈ ಸಂಶೋಧನೆಯು ಎತ್ತಿ ತೋರಿಸುತ್ತದೆ. "ದುರ್ಬಲ" ಮಾಡೆಲ್‌ಗಳು "ಗಟ್ಟಿಯಾದ" (loud) ವೈಫಲ್ಯಗಳನ್ನು ಅನುಭವಿಸುತ್ತವೆ: ಅವು ಮೂಲಭೂತ ಕಾರ್ಯಗಳ ಅನುಷ್ಠಾನದಲ್ಲಿ ವಿಫಲವಾಗುತ್ತವೆ, ಸಂಬಂಧಿತ ಫೈಲ್‌ಗಳನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಮಿಸ್ ಮಾಡುತ್ತವೆ ಅಥವಾ ಮೂಲಭೂತವಾಗಿ ಬಳಕೆಗೆ ಅಸಾಧ್ಯವಾದ ಫಲಿತಾಂಶಗಳನ್ನು ನೀಡುತ್ತವೆ. ಇದಕ್ಕೆ ವ್ಯತಿರಿಕ್ತವಾಗಿ, Claude Fable 5 ನಂತಹ "ಬಲವಾದ" ಮಾಡೆಲ್‌ಗಳು ಹೆಚ್ಚು "ಮೌನವಾಗಿ" (quietly) ವಿಫಲವಾಗುತ್ತವೆ. ಈ ಉನ್ನತ ಮಟ್ಟದ ಮಾಡೆಲ್‌ಗಳು ಸ್ಪಷ್ಟವಾದ ಅಗತ್ಯತೆಗಳನ್ನು ಪೂರೈಸುತ್ತವೆ ಮತ್ತು ವೃತ್ತಿಪರ ಫಾರ್ಮ್ಯಾಟಿಂಗ್ ಅನ್ನು ಕಾಯ್ದುಕೊಳ್ಳುತ್ತವೆ, ಆದರೆ ಹಲವಾರು ವಿಭಿನ್ನ ಮೂಲಗಳಿಂದ ಮಾಹಿತಿಯನ್ನು ಜೋಡಿಸಿದಾಗ ಮಾತ್ರ ತಿಳಿಯಬಹುದಾದ ಸೂಕ್ಷ್ಮ ವಿವರಗಳನ್ನು ಮಿಸ್ ಮಾಡಿಕೊಳ್ಳುವ ಮೂಲಕ ಆಳವಾದ ತಾರ್ಕಿಕ ಪರೀಕ್ಷೆಯಲ್ಲಿ ವಿಫಲವಾಗುತ್ತವೆ.

AI ಕಾರ್ಯಕ್ಷಮತೆಯ ಆರ್ಥಿಕ ಅಸಮಾನತೆ

ತಾಂತ್ರಿಕ ನ್ಯೂನತೆಗಳ ಹೊರತಾಗಿ, ಪ್ರಸ್ತುತ LLM ವಲಯದಲ್ಲಿರುವ ಬೃಹತ್ ಆರ್ಥಿಕ ಅಂತರವನ್ನು ಈ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಎತ್ತಿ ತೋರಿಸುತ್ತದೆ. ಕಾರ್ಯ ಪೂರ್ಣಗೊಳಿಸುವ ವೆಚ್ಚದ ಆಧಾರದ ಮೇಲೆ ಅಳೆಯುವಾಗ ಮಾಡೆಲ್‌ಗಳ ನಡುವೆ ಬೆಲೆ ವ್ಯತ್ಯಾಸವು ಅತಿ ದೊಡ್ಡದಾಗಿದೆ.

ದಕ್ಷತೆಯು ವಿಪರೀತವಾಗಿ ವ್ಯತ್ಯಾಸವಾಗುತ್ತದೆ: DeepSeek V4 Flash ಸುಮಾರು ಪ್ರತಿ ಕಾರ್ಯಕ್ಕೆ $0.04 ವೆಚ್ಚದಲ್ಲಿ ಕಾರ್ಯಗಳನ್ನು ಪೂರ್ಣಗೊಳಿಸಿತು, ಆದರೆ ಅತ್ಯುತ್ತಮ ಪ್ರದರ್ಶನ ನೀಡುವ Claude Fable 5 ಪ್ರತಿ ಕಾರ್ಯಕ್ಕೆ $31 ಕ್ಕಿಂತ ಹೆಚ್ಚಿನ ವೆಚ್ಚವನ್ನು ಹೊಂದಿತ್ತು. ಇದು 800 ಪಟ್ಟು ಬೆಲೆ ವ್ಯತ್ಯಾಸವನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ, ಇದು ಸುಸ್ಥಿರವಲ್ಲದ ಕಾರ್ಯಾಚರಣೆಯ ವೆಚ್ಚಗಳನ್ನು ಭರಿಸದೆ AI ಏಜೆಂಟ್‌ಗಳನ್ನು ವಿಸ್ತರಿಸಲು ಪ್ರಯತ್ನಿಸುತ್ತಿರುವ ಸಂಸ್ಥಾಪಕರು ಮತ್ತು ಉದ್ಯಮಗಳಿಗೆ ದೊಡ್ಡ ಸವಾಲನ್ನು ಒಡ್ಡುತ್ತದೆ.

AI ಪರಿಸರ ವ್ಯವಸ್ಥೆಯ ಮೇಲಿನ ಪರಿಣಾಮಗಳು

AA-Briefcase ಸಂಶೋಧನೆಗಳು "AI Agent" ಹೈಪ್ ಸೈಕಲ್‌ಗೆ ಒಂದು ವಾಸ್ತವಿಕ ಪರಿಶೀಲನೆಯಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ. AI ಸಂಭಾಷಣಾ ಸಹಾಯಕನಿಂದ ವಿಶ್ವಾಸಾರ್ಹ ಜ್ಞಾನದ ಕೆಲಸಗಾರನಾಗಿ ಬದಲಾಗಲು, ಮಾದರಿಗಳು ಕೇವಲ ಸರಳ ಮಾಹಿತಿಯ ಹುಡುಕಾಟದಿಂದ ಆಳವಾದ, ಅಂತರ-ಸಂದರ್ಭದ ಸಂಶ್ಲೇಷಣೆಯತ್ತ ವಿಕಸನಗೊಳ್ಳಬೇಕು. ಡೆವಲಪರ್‌ಗಳು ಮತ್ತು ತಾಂತ್ರಿಕ ನಾಯಕರ ಗುರಿಯು ಈಗ ಕೇವಲ ಪ್ಯಾರಾಮೀಟರ್ ಸಂಖ್ಯೆಯನ್ನು ಹೆಚ್ಚಿಸುವುದಲ್ಲ, ಬದಲಾಗಿ ಚದುರಿದ, ದೀರ್ಘಾವಧಿಯ ತಾರ್ಕಿಕ ಕಾರ್ಯಗಳನ್ನು ಹೆಚ್ಚಿನ ನಿಖರತೆ ಮತ್ತು ಕಡಿಮೆ ಅಂಚಿನ ವೆಚ್ಚಗಳೊಂದಿಗೆ ನಿರ್ವಹಿಸುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಸುಧಾರಿಸುವುದಾಗಿದೆ.

ಪ್ರಮುಖ ಅಂಶಗಳು

  • ಬೃಹತ್ ಕಾರ್ಯಕ್ಷಮತೆಯ ಅಂತರ: Claude Fable 5 ನಂತಹ ಅತ್ಯಾಧುನಿಕ ಮಾದರಿಗಳು ಸಹ ಸಂಕೀರ್ಣವಾದ, ಬಹು-ಮೂಲಗಳ ಜ್ಞಾನದ ಕಾರ್ಯಗಳಲ್ಲಿ ಕೇವಲ 3% ಪೂರ್ಣ ಯಶಸ್ಸಿನ ದರವನ್ನು ಸಾಧಿಸುತ್ತವೆ.
  • ದೋಷಗಳ ವಿಕಸನ: ಕಡಿಮೆ ಮಟ್ಟದ ಮಾದರಿಗಳು ಮೂಲಭೂತ ಕಾರ್ಯನಿರ್ವಹಣೆಯಲ್ಲಿ ವಿಫಲವಾದರೆ, ಸುಧಾರಿತ ಮಾದರಿಗಳು ಚದುರಿದ ಡೇಟಾ ಸೆಟ್‌ಗಳಲ್ಲಿ ಅಡಗಿರುವ ಸೂಕ್ಷ್ಮ ವಿವರಗಳನ್ನು ಕಳೆದುಕೊಳ್ಳುವ ಮೂಲಕ "ಮೌನ" ದೋಷಗಳ ಮೂಲಕ ವಿಫಲವಾಗುತ್ತವೆ.
  • ಅತಿ ಹೆಚ್ಚು ವೆಚ್ಚದ ವ್ಯತ್ಯಾಸ: DeepSeek V4 Flash ನಂತಹ ಬಜೆಟ್ ಸ್ನೇಹಿ ಮಾದರಿಗಳು ಮತ್ತು Claude Fable 5 ನಂತಹ ಪ್ರೀಮಿಯಂ ಮಾದರಿಗಳ ನಡುವೆ ಪ್ರತಿ ಕಾರ್ಯದ ನಿರ್ವಹಣೆಯಲ್ಲಿ 800 ಪಟ್ಟು ವೆಚ್ಚದ ಅಸಮಾನತೆಯಿದೆ.