ಹೊಸ AA ಬ್ರೀಫ್‌ಕೇಸ್ ಬೆಂಚ್‌ಮಾರ್ಕ್ ನೈಜ ಜ್ಞಾನದ ಕೆಲಸದಲ್ಲಿ AI ಎದುರಿಸುತ್ತಿರುವ ಸವಾಲನ್ನು ಬಹಿರಂಗಪಡಿಸಿದೆ

Translated for your language. Read the original.

AI-assisted draft.

ಮೊನ್ನೆ3min read

In this article

ಹೊಸ AA-Briefcase ಬೆಂಚ್‌ಮಾರ್ಕ್ ನೈಜ ಜ್ಞಾನದ ಕೆಲಸಗಳಲ್ಲಿ (Knowledge Work) AI ಎದುರಿಸುತ್ತಿರುವ ಸಂಕಷ್ಟವನ್ನು ಬಹಿರಂಗಪಡಿಸಿದೆ

ಪ್ರಮಾಣಿತ ಮೌಲ್ಯಮಾಪನಗಳಲ್ಲಿ (standard evaluations) ಲಾರ್ಜ್ ಲ್ಯಾಂಗ್ವೇಜ್ ಮಾಡೆಲ್‌ಗಳು (LLMs) ಹೆಚ್ಚು ಸಮರ್ಥವಾಗಿ ಕಂಡುಬರುತ್ತಿದ್ದರೂ, ವೃತ್ತಿಪರ ಪರಿಸರಗಳ ಸಂಕೀರ್ಣತೆಗಳಿಗೆ ಅವು ಮೂಲಭೂತವಾಗಿ ಸಿದ್ಧವಾಗಿಲ್ಲ ಎಂದು ಹೊಸ ದತ್ತಾಂಶಗಳು ಸೂಚಿಸುತ್ತಿವೆ. ಮಾದರಿ ಗುರುತಿಸುವಿಕೆ (pattern recognition) ಮತ್ತು ಬಹು-ಹಂತದ, ಮಾಹಿತಿ-ಸಂಮೂಲಿತ ಜ್ಞಾನದ ಕೆಲಸದ (knowledge work) ನೈಜ ಅನುಷ್ಠಾನದ ನಡುವೆ ಇರುವ ಬೃಹತ್ ಅಂತರವನ್ನು ಒಂದು ಕ್ರಾಂತಿಕಾರಿ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಬಹಿರಂಗಪಡಿಸಿದೆ.

AA-Briefcase ಬೆಂಚ್‌ಮಾರ್ಕ್: ನೈಜ ಪ್ರಪಂಚದ ಅನುಕರಣೆ

ಸಾಂಪ್ರದಾಯಿಕ AI ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಹೆಚ್ಚಾಗಿ ಪ್ರತ್ಯೇಕ ಪ್ರಶ್ನೆಗಳು ಅಥವಾ ಸ್ಥಿರ ದತ್ತಾಂಶಗಳ (static datasets) ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿರುತ್ತವೆ, ಇವು ಆಧುನಿಕ ಕಚೇರಿಯ ಗೊಂದಲಮಯ ವಾಸ್ತವವನ್ನು ಪ್ರತಿಬಿಂಬಿಸುವುದಿಲ್ಲ. ಈ ಅಂತರವನ್ನು ತುಂಬಲು, Artificial Analysis ಸಂಸ್ಥೆಯು AA-Briefcase ಬೆಂಚ್‌ಮಾರ್ಕ್ ಅನ್ನು ಪರಿಚಯಿಸಿದೆ. ಇದು ದೀರ್ಘಾವಧಿಯ, ವಾರಗಟ್ಟಲೆ ನಡೆಯುವ ಯೋಜನೆಗಳನ್ನು ಅನುಕರಿಸಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾದ ಕಠಿಣ ಪರೀಕ್ಷಾ ಚೌಕಟ್ಟಾಗಿದೆ.

ಸರಳ ಪ್ರಾಂಪ್ಟ್‌ಗಳ ಬದಲಿಗೆ, Slack ಥ್ರೆಡ್‌ಗಳು, ಇಮೇಲ್ ಚೇನ್‌ಗಳು, ಸಭೆಯ ಟ್ರಾನ್ಸ್‌ಕ್ರಿಪ್ಟ್‌ಗಳು ಮತ್ತು ಬೃಹತ್ ಪ್ರಮಾಣದ ಡೇಟಾ ಎಕ್ಸ್‌ಪೋರ್ಟ್‌ಗಳು ಸೇರಿದಂತೆ ಸಾವಿರಾರು ಚದುರಿದ ಮೂಲ ಫೈಲ್‌ಗಳನ್ನು ನಿರ್ವಹಿಸುವ ಜವಾಬ್ದಾರಿಯನ್ನು ಮಾಡೆಲ್‌ಗಳಿಗೆ ನೀಡಲಾಗುತ್ತದೆ. ಇದು ಮಾಡೆಲ್‌ನು ಉನ್ನತ ಮಟ್ಟದ ತಾರ್ಕಿಕ ಚಿಂತನೆ (reasoning) ನಡೆಸಲು, ವಿಭಿನ್ನ ದತ್ತಾಂಶಗಳನ್ನು ಸಂಶ್ಲೇಷಿಸಲು ಮತ್ತು ಬೃಹತ್, ಅಸಂಘಟಿತ ದತ್ತಾಂಶಗಳ ನಡುವೆ ಸಂದರ್ಭವನ್ನು (context) ಕಾಯ್ದುಕೊಳ್ಳುವ ಅಗತ್ಯವನ್ನು ಉಂಟುಮಾಡುತ್ತದೆ—ಇವು ವಿಶ್ಲೇಷಕರು, ವಕೀಲರು ಮತ್ತು ಎಂಜಿನಿಯರ್‌ಗಳಿಗೆ ಅತ್ಯಗತ್ಯವಾದ ಕೌಶಲ್ಯಗಳಾಗಿವೆ.

ಅತ್ಯುತ್ತಮ ಮಾಡೆಲ್‌ಗಳು ಸಹ ಏಕೆ ವಿಫಲವಾಗುತ್ತಿವೆ

ಕೆಲಸದ ಸ್ಥಳದಲ್ಲಿ ತಕ್ಷಣದ AI ಸ್ವಾಯತ್ತತೆಯನ್ನು (autonomy) ನಿರೀಕ್ಷಿಸುತ್ತಿರುವವರಿಗೆ ಈ ಫಲಿತಾಂಶಗಳು ಎಚ್ಚರಿಕೆಯ ಗಂಟೆಯಾಗಿವೆ. ಪರೀಕ್ಷೆ ನಡೆಸಲಾದ ಅತ್ಯಂತ ಸುಧಾರಿತ ಮಾಡೆಲ್ ಆದ Anthropic ನ Claude Fable 5 ಕೂಡ ನೀಡಲಾದ ಕಾರ್ಯಗಳಲ್ಲಿ ಕೇವಲ 3 ಪ್ರತಿಶತ ಕಾರ್ಯಗಳನ್ನು ಮಾತ್ರ ಸಂಪೂರ್ಣವಾಗಿ ಪರಿಹರಿಸಲು ಸಾಧ್ಯವಾಯಿತು. 91 ನಿರ್ದಿಷ್ಟ ಕಾರ್ಯಗಳಲ್ಲಿ 31 ಕಾರ್ಯಗಳಿಗೂ ಯಾವುದೇ ಮಾಡೆಲ್ 50 ಪ್ರತಿಶತದ ಪಾಸ್ ದರವನ್ನು ತಲುಪಲು ಸಾಧ್ಯವಾಗಲಿಲ್ಲ ಎಂದು ಈ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಬಹಿರಂಗಪಡಿಸಿದೆ.

ಬುದ್ಧಿವಂತಿಕೆ ಹೆಚ್ಚಾದಂತೆ AI ಹೇಗೆ ವಿಫಲವಾಗುತ್ತದೆ ಎಂಬುದರಲ್ಲಿ ಒಂದು ಆಸಕ್ತಿದಾಯಕ ಬದಲಾವಣೆಯನ್ನು ಈ ಸಂಶೋಧನೆಯು ಎತ್ತಿ ತೋರಿಸುತ್ತದೆ. "ದುರ್ಬಲ" ಮಾಡೆಲ್‌ಗಳು "ಗಟ್ಟಿಯಾದ" (loud) ವೈಫಲ್ಯಗಳನ್ನು ಅನುಭವಿಸುತ್ತವೆ: ಅವು ಮೂಲಭೂತ ಕಾರ್ಯಗಳ ಅನುಷ್ಠಾನದಲ್ಲಿ ವಿಫಲವಾಗುತ್ತವೆ, ಸಂಬಂಧಿತ ಫೈಲ್‌ಗಳನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಮಿಸ್ ಮಾಡುತ್ತವೆ ಅಥವಾ ಮೂಲಭೂತವಾಗಿ ಬಳಕೆಗೆ ಅಸಾಧ್ಯವಾದ ಫಲಿತಾಂಶಗಳನ್ನು ನೀಡುತ್ತವೆ. ಇದಕ್ಕೆ ವ್ಯತಿರಿಕ್ತವಾಗಿ, Claude Fable 5 ನಂತಹ "ಬಲವಾದ" ಮಾಡೆಲ್‌ಗಳು ಹೆಚ್ಚು "ಮೌನವಾಗಿ" (quietly) ವಿಫಲವಾಗುತ್ತವೆ. ಈ ಉನ್ನತ ಮಟ್ಟದ ಮಾಡೆಲ್‌ಗಳು ಸ್ಪಷ್ಟವಾದ ಅಗತ್ಯತೆಗಳನ್ನು ಪೂರೈಸುತ್ತವೆ ಮತ್ತು ವೃತ್ತಿಪರ ಫಾರ್ಮ್ಯಾಟಿಂಗ್ ಅನ್ನು ಕಾಯ್ದುಕೊಳ್ಳುತ್ತವೆ, ಆದರೆ ಹಲವಾರು ವಿಭಿನ್ನ ಮೂಲಗಳಿಂದ ಮಾಹಿತಿಯನ್ನು ಜೋಡಿಸಿದಾಗ ಮಾತ್ರ ತಿಳಿಯಬಹುದಾದ ಸೂಕ್ಷ್ಮ ವಿವರಗಳನ್ನು ಮಿಸ್ ಮಾಡಿಕೊಳ್ಳುವ ಮೂಲಕ ಆಳವಾದ ತಾರ್ಕಿಕ ಪರೀಕ್ಷೆಯಲ್ಲಿ ವಿಫಲವಾಗುತ್ತವೆ.

AI ಕಾರ್ಯಕ್ಷಮತೆಯ ಆರ್ಥಿಕ ಅಸಮಾನತೆ

ತಾಂತ್ರಿಕ ನ್ಯೂನತೆಗಳ ಹೊರತಾಗಿ, ಪ್ರಸ್ತುತ LLM ವಲಯದಲ್ಲಿರುವ ಬೃಹತ್ ಆರ್ಥಿಕ ಅಂತರವನ್ನು ಈ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಎತ್ತಿ ತೋರಿಸುತ್ತದೆ. ಕಾರ್ಯ ಪೂರ್ಣಗೊಳಿಸುವ ವೆಚ್ಚದ ಆಧಾರದ ಮೇಲೆ ಅಳೆಯುವಾಗ ಮಾಡೆಲ್‌ಗಳ ನಡುವೆ ಬೆಲೆ ವ್ಯತ್ಯಾಸವು ಅತಿ ದೊಡ್ಡದಾಗಿದೆ.

ದಕ್ಷತೆಯು ವಿಪರೀತವಾಗಿ ವ್ಯತ್ಯಾಸವಾಗುತ್ತದೆ: DeepSeek V4 Flash ಸುಮಾರು ಪ್ರತಿ ಕಾರ್ಯಕ್ಕೆ $0.04 ವೆಚ್ಚದಲ್ಲಿ ಕಾರ್ಯಗಳನ್ನು ಪೂರ್ಣಗೊಳಿಸಿತು, ಆದರೆ ಅತ್ಯುತ್ತಮ ಪ್ರದರ್ಶನ ನೀಡುವ Claude Fable 5 ಪ್ರತಿ ಕಾರ್ಯಕ್ಕೆ $31 ಕ್ಕಿಂತ ಹೆಚ್ಚಿನ ವೆಚ್ಚವನ್ನು ಹೊಂದಿತ್ತು. ಇದು 800 ಪಟ್ಟು ಬೆಲೆ ವ್ಯತ್ಯಾಸವನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ, ಇದು ಸುಸ್ಥಿರವಲ್ಲದ ಕಾರ್ಯಾಚರಣೆಯ ವೆಚ್ಚಗಳನ್ನು ಭರಿಸದೆ AI ಏಜೆಂಟ್‌ಗಳನ್ನು ವಿಸ್ತರಿಸಲು ಪ್ರಯತ್ನಿಸುತ್ತಿರುವ ಸಂಸ್ಥಾಪಕರು ಮತ್ತು ಉದ್ಯಮಗಳಿಗೆ ದೊಡ್ಡ ಸವಾಲನ್ನು ಒಡ್ಡುತ್ತದೆ.

AI ಪರಿಸರ ವ್ಯವಸ್ಥೆಯ ಮೇಲಿನ ಪರಿಣಾಮಗಳು

AA-Briefcase ಸಂಶೋಧನೆಗಳು "AI Agent" ಹೈಪ್ ಸೈಕಲ್‌ಗೆ ಒಂದು ವಾಸ್ತವಿಕ ಪರಿಶೀಲನೆಯಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ. AI ಸಂಭಾಷಣಾ ಸಹಾಯಕನಿಂದ ವಿಶ್ವಾಸಾರ್ಹ ಜ್ಞಾನದ ಕೆಲಸಗಾರನಾಗಿ ಬದಲಾಗಲು, ಮಾದರಿಗಳು ಕೇವಲ ಸರಳ ಮಾಹಿತಿಯ ಹುಡುಕಾಟದಿಂದ ಆಳವಾದ, ಅಂತರ-ಸಂದರ್ಭದ ಸಂಶ್ಲೇಷಣೆಯತ್ತ ವಿಕಸನಗೊಳ್ಳಬೇಕು. ಡೆವಲಪರ್‌ಗಳು ಮತ್ತು ತಾಂತ್ರಿಕ ನಾಯಕರ ಗುರಿಯು ಈಗ ಕೇವಲ ಪ್ಯಾರಾಮೀಟರ್ ಸಂಖ್ಯೆಯನ್ನು ಹೆಚ್ಚಿಸುವುದಲ್ಲ, ಬದಲಾಗಿ ಚದುರಿದ, ದೀರ್ಘಾವಧಿಯ ತಾರ್ಕಿಕ ಕಾರ್ಯಗಳನ್ನು ಹೆಚ್ಚಿನ ನಿಖರತೆ ಮತ್ತು ಕಡಿಮೆ ಅಂಚಿನ ವೆಚ್ಚಗಳೊಂದಿಗೆ ನಿರ್ವಹಿಸುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಸುಧಾರಿಸುವುದಾಗಿದೆ.

ಪ್ರಮುಖ ಅಂಶಗಳು

ಬೃಹತ್ ಕಾರ್ಯಕ್ಷಮತೆಯ ಅಂತರ: Claude Fable 5 ನಂತಹ ಅತ್ಯಾಧುನಿಕ ಮಾದರಿಗಳು ಸಹ ಸಂಕೀರ್ಣವಾದ, ಬಹು-ಮೂಲಗಳ ಜ್ಞಾನದ ಕಾರ್ಯಗಳಲ್ಲಿ ಕೇವಲ 3% ಪೂರ್ಣ ಯಶಸ್ಸಿನ ದರವನ್ನು ಸಾಧಿಸುತ್ತವೆ.
ದೋಷಗಳ ವಿಕಸನ: ಕಡಿಮೆ ಮಟ್ಟದ ಮಾದರಿಗಳು ಮೂಲಭೂತ ಕಾರ್ಯನಿರ್ವಹಣೆಯಲ್ಲಿ ವಿಫಲವಾದರೆ, ಸುಧಾರಿತ ಮಾದರಿಗಳು ಚದುರಿದ ಡೇಟಾ ಸೆಟ್‌ಗಳಲ್ಲಿ ಅಡಗಿರುವ ಸೂಕ್ಷ್ಮ ವಿವರಗಳನ್ನು ಕಳೆದುಕೊಳ್ಳುವ ಮೂಲಕ "ಮೌನ" ದೋಷಗಳ ಮೂಲಕ ವಿಫಲವಾಗುತ್ತವೆ.
ಅತಿ ಹೆಚ್ಚು ವೆಚ್ಚದ ವ್ಯತ್ಯಾಸ: DeepSeek V4 Flash ನಂತಹ ಬಜೆಟ್ ಸ್ನೇಹಿ ಮಾದರಿಗಳು ಮತ್ತು Claude Fable 5 ನಂತಹ ಪ್ರೀಮಿಯಂ ಮಾದರಿಗಳ ನಡುವೆ ಪ್ರತಿ ಕಾರ್ಯದ ನಿರ್ವಹಣೆಯಲ್ಲಿ 800 ಪಟ್ಟು ವೆಚ್ಚದ ಅಸಮಾನತೆಯಿದೆ.

ಹೊಸ AA ಬ್ರೀಫ್‌ಕೇಸ್ ಬೆಂಚ್‌ಮಾರ್ಕ್ ನೈಜ ಜ್ಞಾನದ ಕೆಲಸದಲ್ಲಿ AI ಎದುರಿಸುತ್ತಿರುವ ಸವಾಲನ್ನು ಬಹಿರಂಗಪಡಿಸಿದೆ

ಹೊಸ AA-Briefcase ಬೆಂಚ್‌ಮಾರ್ಕ್ ನೈಜ ಜ್ಞಾನದ ಕೆಲಸಗಳಲ್ಲಿ (Knowledge Work) AI ಎದುರಿಸುತ್ತಿರುವ ಸಂಕಷ್ಟವನ್ನು ಬಹಿರಂಗಪಡಿಸಿದೆ

AA-Briefcase ಬೆಂಚ್‌ಮಾರ್ಕ್: ನೈಜ ಪ್ರಪಂಚದ ಅನುಕರಣೆ

ಅತ್ಯುತ್ತಮ ಮಾಡೆಲ್‌ಗಳು ಸಹ ಏಕೆ ವಿಫಲವಾಗುತ್ತಿವೆ

AI ಕಾರ್ಯಕ್ಷಮತೆಯ ಆರ್ಥಿಕ ಅಸಮಾನತೆ

AI ಪರಿಸರ ವ್ಯವಸ್ಥೆಯ ಮೇಲಿನ ಪರಿಣಾಮಗಳು

ಪ್ರಮುಖ ಅಂಶಗಳು

Continue reading

𝗔𝗜 𝗥𝗲𝗮𝘀𝗼𝗻𝗶𝗻𝗴 𝗔𝘀 𝗔𝗻 𝗘𝗾𝘂𝗶𝗹𝗶𝗯𝗿𝗶𝘂𝗺 𝗣𝗼𝗶𝗻𝘁

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗦𝗰𝗼𝗿𝗲𝗱 𝟬% 𝗢𝗻 𝗘𝘅𝗽𝗲𝗿𝘁 𝗧𝗮𝘀𝗸𝘀

ಉತ್ಪಾದನೆಯಲ್ಲಿ ಎಐ ತಂತ್ರಜ್ಞಾನದ ವೈಫಲ್ಯಗಳು: ಎಐ ಸಮನ್ವಯದ ಅಂತರವನ್ನು ಮುಚ್ಚಿ

Sam Altman Claims Scaling Skeptics Held Back AI Development