మీ ఏజెంట్ డెమో పనిచేస్తుంది. అదే ఒక ఉచ్చు.

నేను కంపెనీల కోసం AI ఏజెంట్లను తయారు చేస్తాను. నేను తరచుగా ఒకే రకమైన విధానాన్ని చూస్తుంటాను. మోడల్ డెమోలో పనిచేస్తుంది. మీరు ఉత్పత్తిని (product) విడుదల చేస్తారు. కానీ ప్రొడక్షన్‌లో అది ప్రతి మూడుసార్లు ఒకసారి విఫలమవుతుంది. ఎందుకు అనేది ఎవరికీ తెలియదు.

డెమో మరియు ప్రొడక్షన్ మధ్య ఉన్న తేడా గణితం (math) లో ఉంది. మీరు ఆ గణితాన్ని అర్థం చేసుకుంటే, మీరు భిన్నంగా నిర్మిస్తారు.

మీ ఏజెంట్‌లోని ప్రతి దశ 95% నమ్మదగినదిగా ఉంటే, అది బాగున్నట్లు అనిపిస్తుంది. కానీ ఏజెంట్లు దశల గొలుసును (chains of steps) ఉపయోగిస్తాయి. మీరు పది దశలను ఒకదానితో ఒకటి అనుసంధానిస్తే, మీ విజయ రేటు 60%కి పడిపోతుంది. మీరు ఇరవై దశలను ఉపయోగిస్తే, మీ విజయ రేటు 36%కి పడిపోతుంది.

నిజమైన పనిలో, దశలు తరచుగా 10% నుండి 20% వరకు ఎర్రర్ రేట్లను కలిగి ఉంటాయి. ఒక ఏజెంట్‌కు 85% విశ్వసనీయత కలిగిన ఎనిమిది దశలు ఉంటే, అది 75% సమయం విఫలమవుతుంది.

మోడల్ సమస్య కాదు. సంయుక్త సంభావ్యత (Compounding probability) సమస్య.

డెమో ఒకే ఒక సులభమైన మార్గాన్ని (happy path) చూపుతుంది. ఇది స్వచ్ఛమైన ఇన్‌పుట్ మరియు చిన్న గొలుసులను ఉపయోగిస్తుంది. ప్రొడక్షన్ వందలాది వినియోగదారుల నుండి వచ్చే గందరగోళ డేటాను ఉపయోగిస్తుంది. ఇది దాగి ఉన్న దశలతో కూడిన పొడవైన గొలుసులను ఉపయోగిస్తుంది.

ఏజెంట్లలో వైఫల్యం అనేది క్రాష్ (crash) లాగా ఉండదు. అది ఒక నిశ్శబ్ద లోపం (quiet error) లాగా కనిపిస్తుంది.

3వ దశ ఒక ఫీల్డ్‌ను తప్పుగా చదువుతుంది. అవుట్‌పుట్ ఇంకా చెల్లుబాటు అయ్యే JSON లాగే కనిపిస్తుంది. 4వ దశ ఆ తప్పుడు డేటాను ఉపయోగించి తర్కించడం (reasoning) చేస్తుంది. 5 నుండి 8 వరకు దశలు ఆ తప్పుపైనే ఆధారపడి నిర్మించబడతాయి. తుది సమాధానం తప్పుగా ఉన్నప్పటికీ, అది నిజమైనదిగా అనిపిస్తుంది. ఎక్కడ తప్పు జరిగిందో చూపించడానికి ఎటువంటి ఎర్రర్ లాగ్ (error log) ఉండదు.

మోడల్ హాలూసినేట్ (hallucinated) అయిందని చెప్పడం ఆపండి. మోడల్ కేవలం తనకు అందిన తప్పుడు డేటాను మాత్రమే పంపింది. 3వ దశలో లోపాన్ని గుర్తించడానికి మీ సిస్టమ్‌లో చెక్‌పాయింట్ లేదు.

ఏజెంట్‌ను కేవలం ఒక ప్రాంప్ట్‌గా చూడటం ఆపండి. దానిని ఒక సిస్టమ్‌గా చూడటం ప్రారంభించండి.

నమ్మదగిన ఏజెంట్లను నిర్మించడానికి ఈ నియమాలను పాటించండి:

  • స్టేట్‌ను (state) ఏజెంట్ వెలుపల సేవ్ చేయండి. స్టేట్‌ను సంభాషణలో కాకుండా డేటాబేస్‌లో ఉంచండి. ఒక ప్రక్రియ 6వ దశలో విఫలమైతే, మీరు 6వ దశ నుండి తిరిగి ప్రారంభించవచ్చు. మీరు మొత్తం గొలుసును మళ్ళీ ప్రారంభించాల్సిన అవసరం లేదు.

  • బౌండరీల వద్ద వాలిడేట్ చేయండి. ప్రతి ఇన్‌పుట్ మరియు అవుట్‌పుట్‌ను స్కీమా (schema) తో సరిచూడండి. లోపం ఎక్కడ జరుగుతుందో ఆ దశలోనే దానిని గుర్తించండి. ఇది ఒక రహస్యమైన సమస్యను తిరిగి సరిదిద్దగలిగే లోపంగా మారుస్తుంది.

  • సైడ్ ఎఫెక్ట్స్ (side effects) ను ఐడెంపోటెంట్ (idempotent) గా చేయండి. దశలు విఫలమైనప్పుడు మీరు వాటిని మళ్ళీ ప్రయత్నించాలి (retry). ఒక దశ ఈమెయిల్ పంపినా లేదా కార్డ్ నుండి డబ్బులు కట్ చేసినా, ఐడెంపోటెన్సీ కీని (idempotency key) ఉపయోగించండి. ఇది రీట్రై సమయంలో డూప్లికేట్ చర్యలను నివారిస్తుంది.

  • మీ CIలో evals ఉపయోగించండి. ప్రతి చిన్న మార్పుతో ఏజెంట్ ప్రవర్తన మారుతుంది. ఒక ప్రాంప్ట్ మార్పు ఒక సమస్యను పరిష్కరించవచ్చు కానీ మరో ఐదు సమస్యలను సృష్టించవచ్చు. ఈ రిగ్రెషన్లను (regressions) ఆటోమేటిక్‌గా గుర్తించడానికి టెస్ట్ సెట్‌ను ఉపయోగించండి.

డెమో నుండి నిజమైన ఉత్పత్తికి మారడం అనేది ఇంజనీరింగ్‌కు సంబంధించిన విషయం. ఇది ఎర్రర్ హ్యాండ్లింగ్, స్టేట్ మేనేజ్‌మెంట్ మరియు అబ్జర్వబిలిటీ (observability) గురించి. ఇది మెరుగైన ప్రాంప్ట్‌ల గురించి కాదు.

మీ ఏజెంట్ ప్రొడక్షన్‌లో సరిగ్గా పనిచేయకపోతే, పెద్ద మోడల్ కోసం వెతకకండి. గొలుసు ఎక్కడ తప్పుగా మారుతుందో ఆ దశను వెతకండి. మీ సిస్టమ్ అక్కడ ఎందుకు లోపాన్ని గుర్తించలేదో ప్రశ్నించుకోండి.

Source: https://dev.to/sagar_jain4010/your-agent-demo-works-thats-the-trap-4joc

Optional learning community: https://t.me/GyaanSetuAi