ಎಕ್ಸ್‌ಪರ್ಟ್ ಕಾರ್ಯಗಳಲ್ಲಿ AI ಏಜೆಂಟ್‌ಗಳು 0% ಅಂಕ ಗಳಿಸಿವೆ

AI ಏಜೆಂಟ್‌ಗಳು ತಜ್ಞರ ಮಟ್ಟದ ಕಾರ್ಯಗಳಲ್ಲಿ ವಿಫಲವಾಗಿವೆ.

ALE ಬೆಂಚ್‌ಮಾರ್ಕ್ ವೃತ್ತಿಪರ ಕೆಲಸಗಳಲ್ಲಿ ಉನ್ನತ ಮಾದರಿಗಳನ್ನು ಪರೀಕ್ಷಿಸಿತು. ಈ ಕಾರ್ಯಗಳಿಗೆ ನೈಜ ಪರಿಣತಿಯ ಅಗತ್ಯವಿದೆ. ಇವು PDF ಅನ್ನು ಸಾರಾಂಶಗೊಳಿಸುವಂತಹ ಸರಳ ಕಾರ್ಯಗಳಲ್ಲ.

ಫಲಿತಾಂಶಗಳು ಸ್ಪಷ್ಟವಾಗಿದ್ದವು. Fable 5 ಮತ್ತು GPT-5.5 ನಂತಹ ಮಾದರಿಗಳು ಅತ್ಯಂತ ಕಠಿಣವಾದ ತಜ್ಞರ ಸಮಸ್ಯೆಗಳಲ್ಲಿ 0% ಅಂಕಗಳನ್ನು ಗಳಿಸಿದವು. ಒಂದು ನಾಣ್ಯವನ್ನು ಎಸೆಯುವುದು ಕೂಡ ಇವುಗಳಿಗಿಂತ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ.

ಮಧ್ಯಮ ಮಟ್ಟದ ಕಾರ್ಯಗಳಲ್ಲಿನ ಕಾರ್ಯಕ್ಷಮತೆಯೂ ಸಹ ಕಡಿಮೆಯಿತ್ತು. ಅತ್ಯುತ್ತಮ ಏಜೆಂಟ್‌ಗಳು ಕೇವಲ 15% ರಿಂದ 21% ಯಶಸ್ಸಿನ ದರವನ್ನು ತಲುಪಿದವು.

AI ಏಜೆಂಟ್‌ಗಳು ಪ್ರಚಾರದಲ್ಲಿ ಹೇಳಲಾಗುತ್ತಿರುವಷ್ಟು ಶಕ್ತಿಯುತವಾಗಿಲ್ಲ.

ಏಜೆಂಟ್‌ಗಳು ವಿಮಾನ ಟಿಕೆಟ್‌ಗಳನ್ನು ಬುಕ್ ಮಾಡುವ ಅಥವಾ ಕೋಡ್ ಬರೆಯುವ ವೀಡಿಯೊಗಳನ್ನು ನೀವು ನೋಡುತ್ತೀರಿ. ಈ ಡೆಮೋಗಳು ಅದ್ಭುತವಾಗಿ ಕಾಣುತ್ತವೆ. ಆದರೆ ಡೆಮೋಗಳನ್ನು ಆಯ್ದುಕೊಳ್ಳಲಾಗುತ್ತದೆ (curated). ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಹಾಗಲ್ಲ.

ಡೆಮೋ ಮತ್ತು ನೈಜ ಅಳವಡಿಕೆಯ (deployment) ನಡುವೆ ದೊಡ್ಡ ಅಂತರವಿದೆ. ಅನೇಕ ತಂಡಗಳು ಅಸ್ತಿತ್ವದಲ್ಲಿಲ್ಲದ ಕೌಶಲ್ಯಗಳ ಆಧಾರದ ಮೇಲೆ ಉತ್ಪನ್ನದ ನಿರ್ಧಾರಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತವೆ. ಅವರು ಏಜೆಂಟ್‌ಗಳನ್ನು ಇಡೀ ವರ್ಕ್‌ಫ್ಲೋಗಳನ್ನು ನಿರ್ವಹಿಸಲು ಬಿಡಲು ಯೋಜಿಸುತ್ತಾರೆ. ಇದು ತಪ್ಪು.

ದತ್ತಾಂಶವು ಏನು ತೋರಿಸುತ್ತದೆ ಎಂದರೆ:

  • ಏಜೆಂಟ್‌ಗಳು ಮಧ್ಯಮ ಮಟ್ಟದ ಕಾರ್ಯಗಳಿಗೆ ಸಹಾಯಕನಾಗಿ ಚೆನ್ನಾಗಿ ಕೆಲಸ ಮಾಡುತ್ತವೆ.
  • ತಜ್ಞರ ಮಟ್ಟದ ಸ್ವಾಯತ್ತತೆ (autonomy) ಇನ್ನೂ ಬಂದಿಲ್ಲ.
  • ಡೆಮೋಗಳಿಗಿಂತ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಹೆಚ್ಚು ವಿಶ್ವಾಸಾರ್ಹವಾಗಿವೆ.

ನೀವು ಇಂದು ಏಜೆಂಟ್‌ಗಳೊಂದಿಗೆ ಏನನ್ನಾದರೂ ನಿರ್ಮಿಸುತ್ತಿದ್ದರೆ, ಅವುಗಳ ಪ್ರಸ್ತುತ ಮಿತಿಗಳಿಗೆ ಅನುಗುಣವಾಗಿ ನಿರ್ಮಿಸಿ. ಒಬ್ಬ ವಕ್ತಾರನು ಶೀಘ್ರದಲ್ಲೇ ಸಂಭವಿಸುತ್ತದೆ ಎಂದು ಭರವಸೆ ನೀಡುವ ವಿಷಯಕ್ಕಾಗಿ ನಿರ್ಮಿಸಬೇಡಿ.

ಉದ್ಯಮವು ಈ ಫಲಿತಾಂಶಗಳನ್ನು ನಿರ್ಲಕ್ಷಿಸುತ್ತಿದೆ. ಜನರು ದತ್ತಾಂಶದ ಬದಲಿಗೆ ಪ್ರಚಾರದ (hype) ಆಧಾರದ ಮೇಲೆ ರೋಡ್‌ಮ್ಯಾಪ್‌ಗಳನ್ನು ನಿರ್ಮಿಸುವುದನ್ನು ಮುಂದುವರಿಸುತ್ತಿದ್ದಾರೆ.

ನಿಮ್ಮ ಉತ್ಪನ್ನದಲ್ಲಿ ಏಜೆಂಟ್‌ಗಳನ್ನು ಬಳಸುತ್ತಿದ್ದರೆ, ಅವುಗಳನ್ನು ಜೂನಿಯರ್ ಡೆವಲಪರ್‌ಗಳಂತೆ ಪರಿಗಣಿಸಿ. ಅವು ಸ್ಪಷ್ಟ ನಿಯಮಗಳಿರುವ ಸಣ್ಣ ಕಾರ್ಯಗಳ ಮೇಲೆ ಕೆಲಸ ಮಾಡುತ್ತವೆ. ಮೇಲ್ವಿಚಾರಣೆಯಿಲ್ಲದೆ ಅವು ಸಂಕೀರ್ಣ ಕೆಲಸಗಳಲ್ಲಿ ವಿಫಲವಾಗುತ್ತವೆ.

ಈ ನಿಯಮಗಳನ್ನು ಪಾಲಿಸಿ:

  • ಹೆಚ್ಚಿನ ಅಪಾಯವಿರುವ (high-stakes) ಕೆಲಸಗಳಿಗೆ ಮನುಷ್ಯನ ಮೇಲ್ವಿಚಾರಣೆಯನ್ನು ಇರಿಸಿ.
  • ಏಜೆಂಟ್‌ಗಳಿಗೆ ಅತ್ಯಂತ ಸೀಮಿತವಾದ ಕಾರ್ಯಗಳನ್ನು ನೀಡಿ.
  • ನಿಮ್ಮ ನೈಜ ಕೆಲಸದ ಹೊರೆಯನ್ನು ಆಧರಿಸಿ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಅಳೆಯಿರಿ.

ಪ್ರಾಯೋಗಿಕ ವಿಧಾನವು ಪ್ರಚಾರದ ವಿಷಯಗಳಿಗಿಂತ (hype thread) ಕಡಿಮೆ ಮೋಜಿನದ್ದಾಗಿರಬಹುದು. ಆದರೆ ಇದು ಕೆಲಸ ಮಾಡುವ ಸಾಫ್ಟ್‌ವೇರ್ ಅನ್ನು ನೀಡುತ್ತದೆ.

ಏಜೆಂಟ್‌ಗಳು ಕೇವಲ ಪರಿಕರಗಳು (tools). ಅವು ಸ್ವಾಯತ್ತ ಕಾರ್ಯಪಡೆಯಲ್ಲ. ವಾಸ್ತವಕ್ಕೆ ಅನುಗುಣವಾಗಿ ನಿರ್ಮಿಸಿ.

ತಂಡಗಳು ಬಿಡುಗಡೆ ಮಾಡಲು ಪ್ರಯತ್ನಿಸುತ್ತಿರುವ ಅತಿ ಹೆಚ್ಚು ಅತಿಶಯೋಕ್ತಿಯಿಂದ ಕೂಡಿದ ಏಜೆಂಟ್ ಸಾಮರ್ಥ್ಯ ಯಾವುದು? ನಿಮ್ಮ ಕಥೆಗಳನ್ನು ಕೆಳಗೆ ಹಂಚಿಕೊಳ್ಳಿ.

ಮೂಲ: https://dev.to/adioof/ai-agents-scored-0-on-expert-tasks-the-hype-machine-doesnt-care-2bp1

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi