𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗣𝗮𝘀𝘀𝗲𝗱 𝗔𝗹𝗹 𝗧𝗲𝘀𝘁𝘀 — 𝗧𝗵𝗲𝗻 𝗙𝗮𝗶𝗹𝗲𝗱 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

📅5 hours ago⏱2 min read

ನಿಮ್ಮ AI ಏಜೆಂಟ್ ಎಲ್ಲಾ ಪರೀಕ್ಷೆಗಳಲ್ಲಿ ಉತ್ತೀರ್ಣವಾಯಿತು — ನಂತರ ಪ್ರೊಡಕ್ಷನ್‌ನಲ್ಲಿ ವಿಫಲವಾಯಿತು.

ನಿಮ್ಮ AI ಏಜೆಂಟ್ ನಿಮ್ಮ ಸ್ಟೇಜಿಂಗ್ ಎನ್ವಿರಾನ್ಮೆಂಟ್‌ನಲ್ಲಿ (staging environment) ಪರಿಪೂರ್ಣವಾಗಿ ಕೆಲಸ ಮಾಡಿತು. ಡೆಮೋಗಳು ಅದ್ಭುತವಾಗಿ ಕಂಡವು. ಪ್ರಾಡಕ್ಟ್ ಮ್ಯಾನೇಜರ್ ಸಂತೋಷವಾಗಿದ್ದರು.

ನಂತರ ನೀವು ಅದನ್ನು ಪ್ರೊಡಕ್ಷನ್‌ಗೆ ಬಿಡುಗಡೆ ಮಾಡಿದ್ದೀರಿ.

ಮೂರು ವಾರಗಳ ನಂತರ, ನಿಮಗೆ ಬಗ್ ವರದಿಗಳು (bug reports) ಬರುತ್ತವೆ. ಏಜೆಂಟ್ ನೀಡುವ ಉತ್ತರಗಳು ಸರಿಯಾಗಿರುವಂತೆ ಕೇಳಿಸುತ್ತವೆ ಆದರೆ ಅವು ಸಂಪೂರ್ಣವಾಗಿ ತಪ್ಪಾಗಿರುತ್ತವೆ.

2025ರಲ್ಲಿ ಇದು ಸಂಭವಿಸುವುದನ್ನು ನಾನು ನೋಡಿದೆ. ಒಂದು ತಂಡವು ಎಂಟರ್‌ಪ್ರೈಸ್ ಗ್ರಾಹಕರಿಗಾಗಿ ಉತ್ಪನ್ನದ ಬೆಲೆಗಳ ಬಗ್ಗೆ ತಪ್ಪು ಮಾಹಿತಿ ನೀಡುವ (hallucinated) ಏಜೆಂಟ್ ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿತು. ಆ ಏಜೆಂಟ್‌ನ ಕಾನ್ಫಿಡೆನ್ಸ್ ಸ್ಕೋರ್ (confidence score) 0.94 ರಷ್ಟು ಹೆಚ್ಚಿತ್ತು. ಆದರೆ ಅದರ ನಿಜವಾದ ನಿಖರತೆ (accuracy) ಕೇವಲ 60% ಮಾತ್ರ ಇತ್ತು.

ಆ ತಂಡವು ವಿಫಲವಾಯಿತು ಏಕೆಂದರೆ ಅವರ ಬಳಿ ಯಾವುದೇ ಇವ್ಯಾಲ್ಯೂಯೇಶನ್ ಪೈಪ್‌ಲೈನ್ (evaluation pipeline) ಇರಲಿಲ್ಲ. ಅವರು ಕೇವಲ ಭರವಸೆಯ ಮೇಲೆ ಅವಲಂಬಿತರಾಗಿದ್ದರು.

ಭರವಸೆಯು ಡಿಪ್ಲಾಯ್ಮೆಂಟ್ ಸ್ಟ್ರಾಟಜಿ (deployment strategy) ಅಲ್ಲ.

ಹೆಚ್ಚಿನ ತಂಡಗಳು ತಮ್ಮೆಲ್ಲಾ ಸಮಯವನ್ನು ಏಜೆಂಟ್ ಆರ್ಕಿಟೆಕ್ಚರ್ (agent architecture) ಮೇಲೆ ಕಳೆಯುತ್ತವೆ. ಅವರು ಟೂಲ್ ವ್ಯಾಖ್ಯಾನಗಳು (tool definitions), ಪ್ರಾಂಪ್ಟ್‌ಗಳು (prompts) ಮತ್ತು ಲಾಜಿಕ್ ಮೇಲೆ ಗಮನ ಹರಿಸುತ್ತಾರೆ. ಅವರು ಬಿಡುಗಡೆ ಮಾಡಿ ಪ್ರಾರ್ಥಿಸುತ್ತಾರೆ.

ಇದು 'ಮೆಜರ್‌ಮೆಂಟ್ ಥಿಯೇಟರ್' (Measurement Theater) ಗೆ ಕಾರಣವಾಗುತ್ತದೆ. ಅಂದರೆ, ನಿಜವಾದ ವೈಫಲ್ಯಗಳನ್ನು ಪತ್ತೆಹಚ್ಚದೆ, ಏಜೆಂಟ್ ಚೆನ್ನಾಗಿ ಕಾಣುವಂತೆ ಮಾಡಲು ನೀವು ಡ್ಯಾಶ್‌ಬೋರ್ಡ್‌ಗಳು ಮತ್ತು ಟೆಸ್ಟ್ ಸೂಟ್‌ಗಳನ್ನು ಬಳಸುವ ಸ್ಥಿತಿ ಇದಾಗಿದೆ. ಏಜೆಂಟ್ ನಿಜವಾದ ಬಳಕೆದಾರರ ಪ್ರಶ್ನೆಗಳಲ್ಲಿ 30% ವೈಫಲ್ಯ ಅನುಭವಿಸುತ್ತಿರುವಾಗ, ನೀವು ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳಲ್ಲಿ 95% ನಿಖರತೆಯನ್ನು ನೋಡಿ ಸಂಭ್ರಮಿಸುತ್ತೀರಿ.

ನೀವು ಸ್ಟ್ಯಾಟಿಕ್ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳಿಂದ (static benchmarks) SkillOps ಗೆ ಬದಲಾಗಬೇಕಿದೆ. ಇದರರ್ಥ ಇಡೀ ಏಜೆಂಟ್ ಅನ್ನು ಪರೀಕ್ಷಿಸುವ ಬದಲು ಏಜೆಂಟ್‌ನ ನಿರ್ದಿಷ್ಟ ಕೌಶಲಗಳನ್ನು (skills) ಮೌಲ್ಯಮಾಪನ ಮಾಡುವುದು ಎಂದರ್ಥ.

ಏಜೆಂಟ್ ಕೆಲಸ ಮಾಡುತ್ತಿದೆಯೇ ಎಂದು ಕೇಳುವುದನ್ನು ನಿಲ್ಲಿಸಿ. ಯಾವ ನಿರ್ದಿಷ್ಟ ಕೌಶಲಗಳು ವಿಫಲವಾಗುತ್ತಿವೆ ಮತ್ತು ಏಕೆ ಎಂದು ಕೇಳಲು ಪ್ರಾರಂಭಿಸಿ.

ಪ್ರೊಡಕ್ಷನ್ ವಿಪತ್ತುಗಳನ್ನು ತಪ್ಪಿಸಲು ಈ ಫ್ರೇಮ್‌ವರ್ಕ್ ಬಳಸಿ:

ಬಿಡುಗಡೆ ಮಾಡುವ ಮೊದಲು 'ಸಾಕಷ್ಟು ಉತ್ತಮ' (good enough) ಎಂದರೇನು ಎಂಬುದನ್ನು ವ್ಯಾಖ್ಯಾನಿಸಿ. ಪ್ರತಿ ಕೌಶಲಕ್ಕೆ ನಿಖರತೆಯ ಮಿತಿಯನ್ನು (accuracy thresholds) ನಿಗದಿಪಡಿಸಿ. ಸಾರಾಂಶಕ್ಕಾಗಿ (summary) 85% ನಿಖರತೆಯು ಸರಿಯಾಗಿರಬಹುದು. ಆದರೆ ಬೆಲೆ ನಿಗದಿಪಡಿಸುವಿಕೆಯಲ್ಲಿ (pricing) 85% ನಿಖರತೆಯು ನಿಮಗೆ ಹಣದ ನಷ್ಟವನ್ನು ಉಂಟುಮಾಡಬಹುದು.
ನೈಜ ಜೀವನವನ್ನು ಪ್ರತಿಬಿಂಬಿಸುವ ಡೇಟಾವನ್ನು ನಿರ್ಮಿಸಿ. ನಿಮ್ಮ ಪರೀಕ್ಷೆಗಳು ಬಳಕೆದಾರರು ನಿಜವಾಗಿಯೂ ಏನು ಕೇಳುತ್ತಾರೆ ಎಂಬುದನ್ನು ಪ್ರತಿಬಿಂಬಿಸಬೇಕೇ ಹೊರತು, ಅವರು ಏನನ್ನು ಕೇಳಬೇಕೆಂದು ನೀವು ಬಯಸುತ್ತೀರೋ ಅದನ್ನು ಅಲ್ಲ.
ಮೊದಲ ದಿನದಿಂದಲೇ ರಿಗ್ರೆಷನ್‌ಗಳನ್ನು (regressions) ಪತ್ತೆಹಚ್ಚಿ. ಪ್ರತಿಯೊಂದು ಪ್ರಾಂಪ್ಟ್ ಬದಲಾವಣೆ ಅಥವಾ ಟೂಲ್ ಅಪ್‌ಡೇಟ್ ಅನ್ನು ನೀವು ಡಿಪ್ಲಾಯ್ ಮಾಡುವ ಮೊದಲು ಸ್ವಯಂಚಾಲಿತ ಪರೀಕ್ಷೆಯನ್ನು (automated test) ಪ್ರಚ启动 ಮಾಡಬೇಕು.
ಕೇವಲ ನಿಖರತೆಯನ್ನು ಮಾತ್ರವಲ್ಲದೆ, ಕಾನ್ಫಿಡೆನ್ಸ್ ಅನ್ನು ಸಹ ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡಿ. ತಾನು ಯಾವಾಗ ತಪ್ಪು ಮಾಡುತ್ತಿದ್ದೇನೆ ಎಂದು ತಿಳಿದಿರುವ ಏಜೆಂಟ್, ತಪ್ಪು ಉತ್ತರಗಳನ್ನು ನೀಡುವ ಅತಿಯಾದ ಆತ್ಮವಿಶ್ವಾಸವುಳ್ಳ ಏಜೆಂಟ್‌ನಿಗಿಂತ ಸುರಕ್ಷಿತವಾಗಿದೆ.
ಫೈಲ್ಯೂರ್ ಬಜೆಟ್‌ಗಳನ್ನು (failure budgets) ರಚಿಸಿ. ಬಿಡುಗಡೆ ಮಾಡುವ ಮೊದಲು ಪ್ರತಿ ಕೌಶಲಕ್ಕೆ ನೀವು ಎಷ್ಟು ವೈಫಲ್ಯವನ್ನು ಸಹಿಸಿಕೊಳ್ಳಬಹುದು ಎಂಬುದನ್ನು ನಿರ್ಧರಿಸಿ.

2026ರ ಅಂತ್ಯದ ವೇಳೆಗೆ, ಏಜೆಂಟ್ ಮೌಲ್ಯಮಾಪನವು ಡಿಪ್ಲಾಯ್ಮೆಂಟ್‌ನ ಒಂದು ಪ್ರಮಾಣಿತ ಭಾಗವಾಗಲಿದೆ. ಈ ಫ್ರೇಮ್‌ವರ್ಕ್‌ಗಳನ್ನು ಬಳಸುವ ತಂಡಗಳು ವೇಗವಾಗಿ ಬಿಡುಗಡೆ ಮಾಡುತ್ತವೆ. ಬಳಸದ ತಂಡಗಳು "ಇದು ಸ್ಟೇಜಿಂಗ್‌ನಲ್ಲಿ ಕೆಲಸ ಮಾಡಿತು" ಎಂದು ಹೇಳುತ್ತಲೇ ಇರುತ್ತವೆ.

ನಿಮ್ಮ ತಂಡವು AI ಏಜೆಂಟ್‌ಗಳಿಗಾಗಿ ಇವ್ಯಾಲ್ಯೂಯೇಶನ್ ಇನ್ಫ್ರಾಸ್ಟ್ರಕ್ಚರ್ (evaluation infrastructure) ಅನ್ನು ನಿರ್ಮಿಸಿದೆಯೇ? ಯಾವ ಮೆಟ್ರಿಕ್ಸ್‌ಗಳು (metrics) ನಿಮ್ಮ ವೈಫಲ್ಯಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಿದವು?

ಕೆಳಗೆ ಕಾಮೆಂಟ್ ಮಾಡಿ. ನಾನು ಪ್ರತಿಯೊಬ್ಬರಿಗೂ ಪ್ರತಿಕ್ರಿಯಿಸುತ್ತೇನೆ.

ಮೂಲ: https://dev.to/xu_xu_b2179aa8fc958d531d1/your-ai-agent-passed-all-tests-then-failed-in-production-heres-the-framework-nobody-told-you-329

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗣𝗮𝘀𝘀𝗲𝗱 𝗔𝗹𝗹 𝗧𝗲𝘀𝘁𝘀 — 𝗧𝗵𝗲𝗻 𝗙𝗮𝗶𝗹𝗲𝗱 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

Continue reading

𝗧𝗵𝗲 𝗕𝗹𝗶𝗻𝗱 𝗦𝗽𝗼𝘁 𝗢𝗳 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗗𝗲𝗽𝗹𝗼𝘆𝗺𝗲𝗻𝘁 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲 𝗚𝘂𝗶𝗱𝗲 (𝟮𝟬𝟮𝟲)

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗗𝗲𝗽𝗹𝗼𝘆𝗺𝗲𝗻𝘁 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲 𝗚𝘂𝗶𝗱𝗲 (𝟮𝟬𝟮𝟲)

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗶𝗻 𝗜𝗻𝘁𝗲𝗹𝗹𝗶𝗴𝗲𝗻𝘁 𝗔𝗴𝗲𝗻𝘁 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲

𝗧𝗲𝘀𝘁𝗶𝗻𝗴 𝗡𝗼𝗻 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀