AI ಏಜೆಂಟ್ ಮೌಲ್ಯಮಾಪನವು ತುಂಬಾ ಬೇಗ ಮುಕ್ತಾಯವಾಗುತ್ತದೆ

ಹೆಚ್ಚಿನ ಜನರು AI ಏಜೆಂಟ್ ಮೌಲ್ಯಮಾಪನವು ಬಿಡುಗಡೆಯೊಂದಿಗೆ ಮುಕ್ತಾಯವಾಗುತ್ತದೆ ಎಂದು ಭಾವಿಸುತ್ತಾರೆ. ಅವರು ಬೆಂಚ್‌ಮಾರ್ಕ್‌ನಲ್ಲಿ ಹೆಚ್ಚಿನ ಸ್ಕೋರ್ ಅನ್ನು ನೋಡಿ ಏಜೆಂಟ್ ಸಿದ್ಧವಾಗಿದೆ ಎಂದು ಭಾವಿಸುತ್ತಾರೆ. ಇದು ತಪ್ಪು.

ಹೆಚ್ಚಿನ ಸ್ಕೋರ್ ಎಂದರೆ ಏಜೆಂಟ್ ಕೇವಲ ಕೆಲವು ನಿರ್ದಿಷ್ಟ ಸಂದರ್ಭಗಳನ್ನು ಪೂರೈಸಿದೆ ಎಂದರ್ಥ ಮಾತ್ರ. ಇದು ಏಜೆಂಟ್ ನೈಜ ಪ್ರಪಂಚಕ್ಕೆ ಸಿದ್ಧವಾಗಿದೆ ಎಂದರ್ಥವಲ್ಲ.

ಪ್ರಸ್ತುತ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳಲ್ಲಿ ದೊಡ್ಡ ಅಂತರಗಳಿವೆ. 15 ಪ್ರಮುಖ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳ ವಿಮರ್ಶೆಯು ಈ ಕೆಳಗಿನವುಗಳನ್ನು ತೋರಿಸಿದೆ:

  • ಯಾವುದೇ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ತಮ್ಮ ಸ್ಕೋರ್‌ಗಳಲ್ಲಿ ಸುರಕ್ಷತೆ ಅಥವಾ ಭದ್ರತೆಯನ್ನು ಸೇರಿಸಿಲ್ಲ.
  • ಯಾವುದೇ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ವೆಚ್ಚದ ದಕ್ಷತೆಯನ್ನು ಸೇರಿಸಿಲ್ಲ.
  • 15 ರಲ್ಲಿ 13 ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಕೇವಲ ಯಶಸ್ಸು ಅಥವಾ ವೈಫಲ್ಯದ ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿವೆ.
  • ಯಾವುದೂ 50% ನಿಯೋಜನಾ ಸಿದ್ಧತೆಯನ್ನು ತಲುಪಲಿಲ್ಲ.

ಕೇವಲ ಅಂತಿಮ ಫಲಿತಾಂಶವನ್ನು ಪರೀಕ್ಷಿಸುವುದು ಅಪಾಯಕಾರಿ. ಏಜೆಂಟ್ ಸರಿಯಾದ ಉತ್ತರವನ್ನು ನೀಡಿದರೆ, ಅದು ಯಶಸ್ಸಿನಂತೆ ಕಾಣುತ್ತದೆ. ಆದರೆ ಅದು ಅನುಸರಿಸಿದ ಹಾದಿ ತಪ್ಪಾಗಿರಬಹುದು.

ಏಜೆಂಟ್ ಹೀಗೆ ಮಾಡಬಹುದು:

  • ಸರಿಯಾದ ಉತ್ತರವನ್ನು ಪಡೆಯಲು ತಪ್ಪು ಪರಿಕರಗಳನ್ನು (tools) ಬಳಸಬಹುದು.
  • ಪರಿಶೀಲನಾ ಹಂತಗಳನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಬಿಡಬಹುದು.
  • ತಪ್ಪು ಮಾಹಿತಿ ನೀಡುವುದರ ಮೂಲಕ (hallucinate) ಸರಿಯಾದ ತೀರ್ಮಾನಕ್ಕೆ ಬರಬಹುದು.
  • ನಿರಂತರ ಮರುಪ್ರಯತ್ನಗಳೊಂದಿಗೆ ನಿಮ್ಮ ಬಜೆಟ್ ಅನ್ನು ಖಾಲಿ ಮಾಡಬಹುದು.

ಗ್ರಾಹಕ ಸೇವಾ ಏಜೆಂಟ್ ತಪ್ಪಾದ ಖಾತೆಗೆ ಮರುಪಾವತಿಯನ್ನು (refund) ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಿದರೆ, ಫಲಿತಾಂಶವು ಸರಿಯಾಗಿರುವಂತೆ ಕಾಣುತ್ತದೆ. ಆದರೆ ಏಜೆಂಟ್ ವಿಫಲವಾಗಿದೆ.

ನೀವು ಕೇವಲ ಉತ್ತರವನ್ನು ಮಾತ್ರವಲ್ಲದೆ, ಅದರ ಹಾದಿಯನ್ನು (trajectory) ಕೂಡ ಮೌಲ್ಯಮಾಪನ ಮಾಡಬೇಕು.

ನಿಜವಾದ ಮೌಲ್ಯಮಾಪನವು ಈ ಆಯಾಮಗಳನ್ನು ಒಳಗೊಂಡಿರಬೇಕು:

  • ಪರಿಕರ ಮತ್ತು ಪ್ಯಾರಾಮೀಟರ್‌ಗಳ ನಿಖರತೆ.
  • ಗ್ರೌಂಡಿಂಗ್ (grounding) ಮತ್ತು ನಿಖರತೆ.
  • ವೆಚ್ಚ ಮತ್ತು ವಿಳಂಬ (latency).
  • ನೀತಿ ಮತ್ತು ಸುರಕ್ಷತೆ.
  • ದೋಷಗಳಿಂದ ಚೇತರಿಕೆ.

ಮೌಲ್ಯಮಾಪನವನ್ನು ಕೇವಲ ಬಿಡುಗಡೆಯ ವರದಿಯಂತೆ ಪರಿಗಣಿಸುವುದನ್ನು ನಿಲ್ಲಿಸಿ. ಅದನ್ನು ನಿರಂತರ ಲೂಪ್ (continuous loop) ಎಂದು ಪರಿಗಣಿಸಿ.

ಕೆಲಸ ಮಾಡಲು ಉತ್ತಮ ವಿಧಾನ:

  • ಸಾಮರ್ಥ್ಯಕ್ಕಾಗಿ ಸಾರ್ವಜನಿಕ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳನ್ನು ನಿರ್ಮಿಸಿ.
  • ಬಿಡುಗಡೆ ಮಾಡುವ ಮೊದಲು ಆಫ್‌ಲೈನ್ ಪರೀಕ್ಷೆಗಳನ್ನು ನಡೆಸಿ.
  • ಪ್ರೊಡಕ್ಷನ್ ಟ್ರೇಸ್‌ಗಳನ್ನು (production traces) ನೈಜ ಸಮಯದಲ್ಲಿ ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡಿ.
  • ಟೂಲ್ ಕರೆಗಳು, ಆರ್ಗ್ಯುಮೆಂಟ್‌ಗಳು ಮತ್ತು ಮಧ್ಯಂತರ ನಿರ್ಧಾರಗಳನ್ನು ಸೆರೆಹಿಡಿಯಿರಿ.
  • ನಿಮ್ಮ ಆಫ್‌ಲೈನ್ ಡೇಟಾ ಸೆಟ್‌ಗಳನ್ನು ಸುಧಾರಿಸಲು ವಿಫಲವಾದ ಪ್ರೊಡಕ್ಷನ್ ಟ್ರೇಸ್‌ಗಳನ್ನು ಬಳಸಿ.

ಮೌಲ್ಯಮಾಪನವು ಒಂದು ಅಬ್ಸರ್ವೇಬಿಲಿಟಿ (observability) ಸಮಸ್ಯೆಯಾಗಿದೆ. ಏಜೆಂಟ್‌ನ ನಡವಳಿಕೆಯು ನಿಮ್ಮ ವ್ಯವಹಾರದ ಗುರಿಗಳು, ನಿಮ್ಮ ಪರಿಕರಗಳು ಮತ್ತು ನಿಮ್ಮ ಬಳಕೆದಾರರ ಉದ್ದೇಶಗಳೊಂದಿಗೆ ಸ್ಥಿರವಾಗಿದ್ದರೆ ಮಾತ್ರ ಏಜೆಂಟ್ ಯಶಸ್ವಿಯಾಗುತ್ತದೆ. ಇವುಗಳು ಪ್ರತಿದಿನ ಬದಲಾಗುತ್ತವೆ.

ಕೇವಲ ಟ್ರೇಸ್‌ಗಳನ್ನು ಸಂಗ್ರಹಿಸಬೇಡಿ. ಅವುಗಳನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಿ. ಮೌಲ್ಯಮಾಪನವಿಲ್ಲದ ಟ್ರೇಸ್ ಸಂಗ್ರಹಣೆಯು ಕೇವಲ ಹುಡುಕಾಟದ (search) ಸಮಸ್ಯೆಯಾಗಿದೆ. ಪ್ರೊಡಕ್ಷನ್ ಡೇಟಾ ಇಲ್ಲದ ಆಫ್‌ಲೈನ್ ಮೌಲ್ಯಮಾಪನವು ಕೇವಲ ನಾಟಕದಂತಿದೆ.

ಮೌಲ್ಯಮಾಪನದ ಕೊನೆಯ ಹಂತವು ಸ್ಕೋರ್ ಆಗಿರಬಾರದು. ಕೊನೆಯ ಹಂತವು ಮುಂದಿನ ಟ್ರೇಸ್ ಆಗಿರಬೇಕು.

ಮೂಲ: https://dev.to/focused_dot_io/ai-agent-evaluation-ends-too-early-focused-labs-38aa

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi