𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗣𝗮𝘀𝘀𝗲𝗱 𝗔𝗹𝗹 𝗧𝗲𝘀𝘁𝘀 — 𝗧𝗵𝗲𝗻 𝗙𝗮𝗶𝗹𝗲𝗱 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

உங்கள் AI ஏஜென்ட் அனைத்து சோதனைகளையும் கடந்துவிட்டது — ஆனால் தயாரிப்பு நிலையில் (Production) தோல்வியடைந்தது.

உங்கள் AI ஏஜென்ட் உங்கள் ஸ்டேஜிங் (staging) சூழலில் சிறப்பாகச் செயல்பட்டது. டெமோக்கள் மிகச்சிறப்பாக இருந்தன. தயாரிப்பு மேலாளர் (Product Manager) மகிழ்ச்சியடைந்தார்.

பிறகு நீங்கள் அதைத் தயாரிப்பு நிலைக்கு (production) கொண்டு சென்றீர்கள்.

மூன்று வாரங்களுக்குப் பிறகு, உங்களுக்குப் பிழை அறிக்கைகள் (bug reports) வருகின்றன. ஏஜென்ட் சரியானதாகத் தோன்றும் ஆனால் முற்றிலும் தவறான பதில்களை வழங்குகிறது.

2025-இல் இது நடப்பதைப் பார்த்தேன். ஒரு குழு, நிறுவன வாடிக்கையாளர்களுக்குத் தயாரிப்பு விலையைப் பற்றித் தவறான தகவல்களைத் தரும் (hallucinated) ஒரு ஏஜென்ட்டை வெளியிட்டது. அந்த ஏஜென்ட் 0.94 என்ற மிக உயர்ந்த நம்பிக்கைப் புள்ளியை (confidence score) கொண்டிருந்தது. ஆனால் அதன் உண்மையான துல்லியம் (accuracy) வெறும் 60% மட்டுமே.

அந்த குழுவிற்கு மதிப்பீட்டு வழிமுறை (evaluation pipeline) இல்லாததால் அவர்கள் தோல்வியடைந்தனர். அவர்கள் நம்பிக்கையை மட்டுமே நம்பியிருந்தார்கள்.

நம்பிக்கை என்பது ஒரு பயன்பாட்டு உத்தி (deployment strategy) அல்ல.

பெரும்பாலான குழுக்கள் தங்கள் நேரத்தை ஏஜென்ட் கட்டமைப்பிலேயே (agent architecture) செலவிடுகிறார்கள். அவர்கள் கருவி வரையறைகள் (tool definitions), ப்ராம்ப்ட்கள் (prompts) மற்றும் தர்க்கத்தில் (logic) கவனம் செலுத்துகிறார்கள். அவர்கள் வெளியிட்டுக்விட்டுப் பிரார்த்தனை செய்கிறார்கள்.

இது "அளவீட்டு நாடகம்" (Measurement Theater) என்பதற்கு வழிவகுக்கிறது. உண்மையான தோல்விகளைக் கண்டறியாமல், ஒரு ஏஜென்ட் சிறப்பாகத் தெரிவதற்காக டேஷ்போர்டுகள் மற்றும் சோதனைத் தொகுப்புகளைப் பயன்படுத்தும் நிலையே இதுவாகும். ஏஜென்ட் 30% உண்மையான பயனர் வினவல்களில் தோல்வியடையும் போது, நீங்கள் பெஞ்ச்மார்க்குகளில் (benchmarks) 95% துல்லியத்தைக் கொண்டாடுகிறீர்கள்.

நீங்கள் நிலையான பெஞ்ச்மார்க்குகளில் (static benchmarks) இருந்து SkillOps-க்கு மாற வேண்டும். அதாவது, முழு ஏஜென்ட்டையும் மதிப்பீடு செய்வதற்குப் பதிலாக, ஏஜென்ட்டின் குறிப்பிட்ட திறன்களை (skills) மதிப்பீடு செய்வதாகும்.

ஏஜென்ட் வேலை செய்கிறதா என்று கேட்பதை நிறுத்துங்கள். எந்தத் குறிப்பிட்ட திறன்கள் தோல்வியடைகின்றன மற்றும் ஏன் என்று கேட்கத் தொடங்குங்கள்.

தயாரிப்புச் சிக்கல்களைத் தவிர்க்க இந்த கட்டமைப்பைப் (framework) பயன்படுத்துங்கள்:

2026-இன் பிற்பகுதியில், ஏஜென்ட் மதிப்பீடு என்பது பயன்பாட்டு முறையின் (deployment) ஒரு நிலையான பகுதியாக இருக்கும். இந்த கட்டமைப்புகளைப் பயன்படுத்தும் குழுக்கள் வேகமாகச் செயல்படும். பயன்படுத்தாத குழுக்கள், "இது ஸ்டேஜிங்கில் வேலை செய்தது" என்று கூறிக்கொண்டே இருப்பார்கள்.

உங்கள் குழு AI ஏஜென்ட்களுக்கான மதிப்பீட்டு உள்கட்டமைப்பை (evaluation infrastructure) உருவாக்கியுள்ளதா? எந்த அளவீடுகள் (metrics) உங்கள் தோல்விகளைக் கண்டறிந்தன?

கீழே ஒரு கருத்தைப் பகிருங்கள். நான் அனைத்திற்கும் பதிலளிப்பேன்.

மூலம்: https://dev.to/xu_xu_b2179aa8fc958d531d1/your-ai-agent-passed-all-tests-then-failed-in-production-heres-the-framework-nobody-told-you-329

விருப்பத்தேர்வு கற்றல் சமூகம்: https://t.me/GyaanSetuAi