మీ CI పాస్ అయింది. కానీ మీ ఏజెంట్ ఆపరేటర్-రెడీ కాదు

మేము గత త్రైమాసికంలో ఒక ఎంటర్‌ప్రైజ్ క్లయింట్‌కు డాక్యుమెంట్ ఏజెంట్‌ను అందించాము.

మా టెస్ట్ సూట్ 94% పాస్ రేటును చూపించింది.

పైలట్ ప్రాజెక్ట్ ప్రారంభమైన మూడు వారాల తర్వాత, ఏజెంట్ తనకు చదవలేని ఇన్వాయిస్‌లకు రీఫండ్‌లను జారీ చేయడం ప్రారంభించింది. ఇది ఎటువంటి హెచ్చరిక లేకుండా నిశ్శబ్దంగా జరిగింది. ఎటువంటి ఎర్రర్లు లేదా లాగ్‌లు లేవు. ఏజెంట్ కేవలం సరిగ్గా ఉన్నట్లు కనిపించే తప్పుడు సమాధానాలను ఇచ్చింది.

మా CI మొత్తం సమయం గ్రీన్ (green) స్టేటస్‌లోనే ఉంది.

సమస్య మోడల్ లేదా ప్రాంప్ట్‌లో లేదు. మేము టెస్ట్ చేయని ఆ 6% డేటాలోనే సమస్య ఉంది. ఆ 6% డేటా ఆపరేటర్ నుండి వచ్చిన మొదటి నిజమైన డేటాగా వచ్చింది.

అది కేవలం ఒక ఎడ్జ్ కేస్ (edge case) కాదు. ఆపరేటర్-రెడీగా ఉండటం అంటే ఇదే.

ప్రొడక్షన్-రెడీ (Production-ready) అనేది ఇన్‌ఫ్రాస్ట్రక్చర్ గురించి. అంటే మీ సర్వీస్ నిరంతరాయంగా పనిచేయడం మరియు లోడ్‌ను తట్టుకోవడం.

ఆపరేటర్-రెడీ అనేది భిన్నమైనది. అంటే మీ ఏజెంట్‌ను నిర్మించని వ్యక్తి కూడా దానిని సులభంగా ఉపయోగించగలగడం. మీరు డిజైన్ చేయని డేటాపై అది పనిచేయడం. నిజమైన పరిణామాలను కలిగించే నిర్ణయాలను అది తీసుకోవడం.

చాలా టెస్ట్ పైప్‌లైన్‌లు మీరు సృష్టించిన డేటా సెట్‌పై పాస్ రేట్లను కొలుస్తాయి. నిజమైన డేటా మీ టెస్ట్ సెట్ కంటే భిన్నంగా ఉన్నప్పుడు ఏం జరుగుతుందో అవి కొలవలేవు.

97% వాలిడేషన్ సక్సెస్ ఉన్న మోడల్ వినడానికి బాగుంటుంది. కానీ విఫలమయ్యే ఆ 3% వైపు చూడండి.

రీట్రై (retry) సమయంలో మీ ఏజెంట్ మిస్ అయిన ఫీల్డ్‌లను డిఫాల్ట్ విలువలతో నింపితే, మీరు ఒక నిశ్శబ్ద ఎర్రర్ మెషీన్‌ను నిర్మించినట్లు లెక్క. స్కీమా (schema) పాస్ అవుతుంది, కానీ డేటా తప్పుగా ఉంటుంది.

దీనిని పరిష్కరించడానికి, స్కీమా వాలిడిటీని (schema validity) కంటెంట్ కాన్ఫిడెన్స్ (content confidence) నుండి వేరు చేయండి.

మేము ప్రతి రెస్పాన్స్‌కు ఒక కాన్ఫిడెన్స్ స్కోర్‌ను జోడించాము. తక్కువ కాన్ఫిడెన్స్ ఉంటే, ఇప్పుడు రీట్రైకి బదులుగా హ్యూమన్ రివ్యూ (human review) జరుగుతుంది. ఈ మార్పు వల్ల మా మొదటి 18 ఇన్సిడెంట్లలో 14 వరకు గుర్తించబడ్డాయి.

మీ టెస్ట్ సెట్ మీరు ఊహించిన వాటిని కవర్ చేస్తుంది. ఆపరేటర్ డేటా మీరు మిస్ అయిన వాటిని కవర్ చేస్తుంది.

మా విషయంలో, మేము సింగిల్-పేజీ ఇన్వాయిస్‌లను టెస్ట్ చేశాము. కానీ ఆపరేటర్ స్కాన్ చేసిన PDFలతో కూడిన మల్టీ-పేజీ ఇన్వాయిస్‌లను ఉపయోగించారు. కొత్త ఫార్మాట్‌తో ఏజెంట్ విఫలమైంది.

కేవలం పార్సర్‌ను (parser) మాత్రమే సరిచేయకండి. లైవ్ వెళ్లకముందే అసలు ఆపరేటర్ డేటాతో టెస్ట్ చేయండి.

ఏదైనా హ్యాండోఫ్ (handoff) కంటే ముందు, మేము ఇప్పుడు ఆపరేటర్ యొక్క స్వంత డేటా నుండి 50 డాక్యుమెంట్‌లను కోరుతున్నాము. మేము సింథటిక్ డేటాను (synthetic data) ఉపయోగించము. వారి డేటాను ఉపయోగిస్తాము.

మీకు పూర్తి ఆడిట్ ట్రయల్ (audit trail) కూడా అవసరం. మోడల్ ఏమి రిటర్న్ చేసిందో మాత్రమే లాగ్ చేయకండి. మోడల్ ఏమి చేయకూడదని నిర్ణయించుకుందో కూడా లాగ్ చేయండి.

కనీస ఆడిట్ ట్రయల్ కోసం ఇవి అవసరం:

  • ఫీల్డ్-లెవల్ కాన్ఫిడెన్స్ స్కోర్‌లతో కూడిన అవుట్‌పుట్
  • ఏజెంట్ రీట్రై చేసిందో లేదో చూపించే ఫాల్‌బ్యాక్ ఇండికేటర్ (fallback indicator)
  • ఖచ్చితమైన డాక్యుమెంట్‌ను మళ్ళీ ప్లే చేయడానికి ఇన్‌పుట్ హాష్ (input hash)
  • ఉపయోగించిన నిర్దిష్ట మోడల్ మరియు ప్రాంప్ట్ వెర్షన్

మీరు ఏజెంట్‌ను ఆపరేటర్‌కు అందించే ముందు, ఈ ఐదు విషయాలను తనిఖీ చేయండి:

  • ఆపరేటర్ యొక్క అసలు డేటా నుండి 50+ శాంపిల్స్‌ను రన్ చేయండి.
  • స్కీమా చెక్‌లను పాస్ అయ్యి, కానీ డౌన్‌స్ట్రీమ్ ఎర్రర్‌లకు (downstream errors) కారణమైన అవుట్‌పుట్‌ల కోసం లాగ్‌లను వెతకండి.
  • ఏజెంట్ సురక్షితంగా విఫలమయ్యేలా (fails safely) తప్పుగా ఉన్న ఇన్‌పుట్‌లను (malformed inputs) ఇవ్వండి.
  • ఒక నిర్దిష్ట డాక్యుమెంట్‌కు ఏమి జరిగిందో 5 నిమిషాల లోపు సమాధానం చెప్పగలరని నిర్ధారించుకోండి.
  • ఏజెంట్‌కు వీలైనంత తక్కువ పర్మిషన్లు (permissions) ఉన్నాయని తనిఖీ చేయండి.

మా టెస్ట్ పాస్ రేటు 94%. మొదటి నెలలో మా ఎర్రర్ రేటు 8%.

మేము కాన్ఫిడెన్స్ స్కోర్‌లు, రియల్-వరల్డ్ టెస్టింగ్ మరియు మెరుగైన లాగ్‌లను జోడించిన తర్వాత, ఎర్రర్ రేటు 1.4%కి తగ్గింది.

టెస్ట్ స్కోర్ సమస్య కాదు. టెస్ట్ స్కోప్ (test scope) సమస్య.

Source: https://dev.to/ethanwritesai/our-ci-passed-your-agent-isnt-operator-ready-2mfn

Optional learning community: https://t.me/GyaanSetuAi