𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗣𝗮𝘀𝘀𝗲𝗱 𝗔𝗹𝗹 𝗧𝗲𝘀𝘁𝘀 — 𝗧𝗵𝗲𝗻 𝗙𝗮𝗶𝗹𝗲𝗱 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

ನಿಮ್ಮ AI ಏಜೆಂಟ್ ಎಲ್ಲಾ ಪರೀಕ್ಷೆಗಳಲ್ಲಿ ಉತ್ತೀರ್ಣವಾಯಿತು — ನಂತರ ಪ್ರೊಡಕ್ಷನ್‌ನಲ್ಲಿ ವಿಫಲವಾಯಿತು.

ನಿಮ್ಮ AI ಏಜೆಂಟ್ ನಿಮ್ಮ ಸ್ಟೇಜಿಂಗ್ ಎನ್ವಿರಾನ್ಮೆಂಟ್‌ನಲ್ಲಿ (staging environment) ಪರಿಪೂರ್ಣವಾಗಿ ಕೆಲಸ ಮಾಡಿತು. ಡೆಮೋಗಳು ಅದ್ಭುತವಾಗಿ ಕಂಡವು. ಪ್ರಾಡಕ್ಟ್ ಮ್ಯಾನೇಜರ್ ಸಂತೋಷವಾಗಿದ್ದರು.

ನಂತರ ನೀವು ಅದನ್ನು ಪ್ರೊಡಕ್ಷನ್‌ಗೆ ಬಿಡುಗಡೆ ಮಾಡಿದ್ದೀರಿ.

ಮೂರು ವಾರಗಳ ನಂತರ, ನಿಮಗೆ ಬಗ್ ವರದಿಗಳು (bug reports) ಬರುತ್ತವೆ. ಏಜೆಂಟ್ ನೀಡುವ ಉತ್ತರಗಳು ಸರಿಯಾಗಿರುವಂತೆ ಕೇಳಿಸುತ್ತವೆ ಆದರೆ ಅವು ಸಂಪೂರ್ಣವಾಗಿ ತಪ್ಪಾಗಿರುತ್ತವೆ.

2025ರಲ್ಲಿ ಇದು ಸಂಭವಿಸುವುದನ್ನು ನಾನು ನೋಡಿದೆ. ಒಂದು ತಂಡವು ಎಂಟರ್‌ಪ್ರೈಸ್ ಗ್ರಾಹಕರಿಗಾಗಿ ಉತ್ಪನ್ನದ ಬೆಲೆಗಳ ಬಗ್ಗೆ ತಪ್ಪು ಮಾಹಿತಿ ನೀಡುವ (hallucinated) ಏಜೆಂಟ್ ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿತು. ಆ ಏಜೆಂಟ್‌ನ ಕಾನ್ಫಿಡೆನ್ಸ್ ಸ್ಕೋರ್ (confidence score) 0.94 ರಷ್ಟು ಹೆಚ್ಚಿತ್ತು. ಆದರೆ ಅದರ ನಿಜವಾದ ನಿಖರತೆ (accuracy) ಕೇವಲ 60% ಮಾತ್ರ ಇತ್ತು.

ಆ ತಂಡವು ವಿಫಲವಾಯಿತು ಏಕೆಂದರೆ ಅವರ ಬಳಿ ಯಾವುದೇ ಇವ್ಯಾಲ್ಯೂಯೇಶನ್ ಪೈಪ್‌ಲೈನ್ (evaluation pipeline) ಇರಲಿಲ್ಲ. ಅವರು ಕೇವಲ ಭರವಸೆಯ ಮೇಲೆ ಅವಲಂಬಿತರಾಗಿದ್ದರು.

ಭರವಸೆಯು ಡಿಪ್ಲಾಯ್ಮೆಂಟ್ ಸ್ಟ್ರಾಟಜಿ (deployment strategy) ಅಲ್ಲ.

ಹೆಚ್ಚಿನ ತಂಡಗಳು ತಮ್ಮೆಲ್ಲಾ ಸಮಯವನ್ನು ಏಜೆಂಟ್ ಆರ್ಕಿಟೆಕ್ಚರ್ (agent architecture) ಮೇಲೆ ಕಳೆಯುತ್ತವೆ. ಅವರು ಟೂಲ್ ವ್ಯಾಖ್ಯಾನಗಳು (tool definitions), ಪ್ರಾಂಪ್ಟ್‌ಗಳು (prompts) ಮತ್ತು ಲಾಜಿಕ್ ಮೇಲೆ ಗಮನ ಹರಿಸುತ್ತಾರೆ. ಅವರು ಬಿಡುಗಡೆ ಮಾಡಿ ಪ್ರಾರ್ಥಿಸುತ್ತಾರೆ.

ಇದು 'ಮೆಜರ್‌ಮೆಂಟ್ ಥಿಯೇಟರ್' (Measurement Theater) ಗೆ ಕಾರಣವಾಗುತ್ತದೆ. ಅಂದರೆ, ನಿಜವಾದ ವೈಫಲ್ಯಗಳನ್ನು ಪತ್ತೆಹಚ್ಚದೆ, ಏಜೆಂಟ್ ಚೆನ್ನಾಗಿ ಕಾಣುವಂತೆ ಮಾಡಲು ನೀವು ಡ್ಯಾಶ್‌ಬೋರ್ಡ್‌ಗಳು ಮತ್ತು ಟೆಸ್ಟ್ ಸೂಟ್‌ಗಳನ್ನು ಬಳಸುವ ಸ್ಥಿತಿ ಇದಾಗಿದೆ. ಏಜೆಂಟ್ ನಿಜವಾದ ಬಳಕೆದಾರರ ಪ್ರಶ್ನೆಗಳಲ್ಲಿ 30% ವೈಫಲ್ಯ ಅನುಭವಿಸುತ್ತಿರುವಾಗ, ನೀವು ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳಲ್ಲಿ 95% ನಿಖರತೆಯನ್ನು ನೋಡಿ ಸಂಭ್ರಮಿಸುತ್ತೀರಿ.

ನೀವು ಸ್ಟ್ಯಾಟಿಕ್ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳಿಂದ (static benchmarks) SkillOps ಗೆ ಬದಲಾಗಬೇಕಿದೆ. ಇದರರ್ಥ ಇಡೀ ಏಜೆಂಟ್ ಅನ್ನು ಪರೀಕ್ಷಿಸುವ ಬದಲು ಏಜೆಂಟ್‌ನ ನಿರ್ದಿಷ್ಟ ಕೌಶಲಗಳನ್ನು (skills) ಮೌಲ್ಯಮಾಪನ ಮಾಡುವುದು ಎಂದರ್ಥ.

ಏಜೆಂಟ್ ಕೆಲಸ ಮಾಡುತ್ತಿದೆಯೇ ಎಂದು ಕೇಳುವುದನ್ನು ನಿಲ್ಲಿಸಿ. ಯಾವ ನಿರ್ದಿಷ್ಟ ಕೌಶಲಗಳು ವಿಫಲವಾಗುತ್ತಿವೆ ಮತ್ತು ಏಕೆ ಎಂದು ಕೇಳಲು ಪ್ರಾರಂಭಿಸಿ.

ಪ್ರೊಡಕ್ಷನ್ ವಿಪತ್ತುಗಳನ್ನು ತಪ್ಪಿಸಲು ಈ ಫ್ರೇಮ್‌ವರ್ಕ್ ಬಳಸಿ:

2026ರ ಅಂತ್ಯದ ವೇಳೆಗೆ, ಏಜೆಂಟ್ ಮೌಲ್ಯಮಾಪನವು ಡಿಪ್ಲಾಯ್ಮೆಂಟ್‌ನ ಒಂದು ಪ್ರಮಾಣಿತ ಭಾಗವಾಗಲಿದೆ. ಈ ಫ್ರೇಮ್‌ವರ್ಕ್‌ಗಳನ್ನು ಬಳಸುವ ತಂಡಗಳು ವೇಗವಾಗಿ ಬಿಡುಗಡೆ ಮಾಡುತ್ತವೆ. ಬಳಸದ ತಂಡಗಳು "ಇದು ಸ್ಟೇಜಿಂಗ್‌ನಲ್ಲಿ ಕೆಲಸ ಮಾಡಿತು" ಎಂದು ಹೇಳುತ್ತಲೇ ಇರುತ್ತವೆ.

ನಿಮ್ಮ ತಂಡವು AI ಏಜೆಂಟ್‌ಗಳಿಗಾಗಿ ಇವ್ಯಾಲ್ಯೂಯೇಶನ್ ಇನ್ಫ್ರಾಸ್ಟ್ರಕ್ಚರ್ (evaluation infrastructure) ಅನ್ನು ನಿರ್ಮಿಸಿದೆಯೇ? ಯಾವ ಮೆಟ್ರಿಕ್ಸ್‌ಗಳು (metrics) ನಿಮ್ಮ ವೈಫಲ್ಯಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಿದವು?

ಕೆಳಗೆ ಕಾಮೆಂಟ್ ಮಾಡಿ. ನಾನು ಪ್ರತಿಯೊಬ್ಬರಿಗೂ ಪ್ರತಿಕ್ರಿಯಿಸುತ್ತೇನೆ.

ಮೂಲ: https://dev.to/xu_xu_b2179aa8fc958d531d1/your-ai-agent-passed-all-tests-then-failed-in-production-heres-the-framework-nobody-told-you-329

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi