ప్రొడక్షన్‌కు ముందు ఒక AI ఏజెంట్ ప్లేగ్రౌండ్‌ను నిర్మించడం

Translated for your language. Read the original.

AI-assisted draft.

ప్రొడక్షన్‌కు ముందు ఒక AI ఏజెంట్ ప్లేగ్రౌండ్‌ను నిర్మించడం

ఒక కోడింగ్ ఏజెంట్, స్టేజింగ్ డేటాబేస్ అనుకుని ఒక క్లీనప్ స్క్రిప్ట్‌ను రన్ చేసింది. కానీ అది నిజానికి ప్రొడక్షన్ డేటాబేస్. తప్పుడు క్రెడెన్షియల్స్‌తో దానికి చెప్పిన పనిని సరిగ్గా చేసినందువల్ల, ఆ ఏజెంట్ నాలుగు నెలల కస్టమర్ ఆర్డర్‌లను డిలీట్ చేసింది.

ఈ వైఫల్యం ఏజెంట్లను నివారించడానికి కారణం కాదు. ఇది ఒక ప్లేగ్రౌండ్‌ను నిర్మించడానికి ఒక కారణం.

మీరు ఒక కొత్త ఇంజనీర్‌కు వారి మొదటి రోజే ప్రొడక్షన్ డేటాబేస్ యాక్సెస్‌ను ఇవ్వరు. మీరు వారికి స్టేజింగ్ ఎన్విరాన్మెంట్, రీడ్-ఓన్లీ యాక్సెస్ మరియు పర్యవేక్షించబడే పనులను ఇస్తారు. ఏజెంట్లకు కూడా అదే విధమైన ఆన్‌బోర్డింగ్ అవసరం. అవి నిమిషానికి వెయ్యి పనులు చేయగలవు, కాబట్టి ప్లేగ్రౌండ్‌ను వదిలేయడం వల్ల కలిగే నష్టం వెయ్యి రెట్లు ఎక్కువగా ఉంటుంది.

ఒక నిజమైన ప్లేగ్రౌండ్ మూడు పనులు చేయాలి:

ఏజెంట్ తన పూర్తి డిసిషన్ లూప్‌ను (decision loop) రన్ చేయడానికి అనుమతించాలి.
సైడ్ ఎఫెక్ట్స్ (side effects) నిజమైన సిస్టమ్‌లకు చేరకుండా ఆపాలి.
తనిఖీ కోసం ప్రతిదీ రికార్డ్ చేయాలి.

కేవలం ప్రాంప్ట్‌ను మాత్రమే పరీక్షించకండి. ప్రాంప్ట్‌ను పరీక్షించడం అంటే ఒక ప్రశ్న అడగడం మరియు సమాధానాన్ని చదవడం మాత్రమే. ఏజెంట్ ప్రవర్తన అనేది టూల్ కాల్స్ (tool calls) యొక్క ఒక క్రమం. ఒక టూల్ ఊహించని డేటాను తిరిగి ఇచ్చినప్పుడు, లూప్ మధ్యలో నిజమైన వైఫల్యాలు జరుగుతాయి.

మీరు మోడల్‌ను శాండ్‌బాక్స్ (sandbox) చేయాల్సిన అవసరం లేదు. మీరు ఎగ్జిక్యూటర్‌ను (executor) శాండ్‌బాక్స్ చేయాలి.

టూల్ కాల్స్ చర్యలుగా (actions) మారే చోట ఒక విభజనను (seam) ఏర్పాటు చేయండి. లైవ్ ఎగ్జిక్యూటర్‌కు బదులుగా మ్యాక్స్ (mocks) ఉపయోగించే ప్లేగ్రౌండ్ ఎగ్జిక్యూటర్‌ను ఉపయోగించండి. ఏజెంట్ లూప్‌కు ఈ తేడా తెలియకూడదు. మీ ఏజెంట్ నేరుగా డేటాబేస్ క్లయింట్‌ను కాల్ చేస్తే, మీకు విభజన ఉండదు మరియు భద్రత కూడా ఉండదు.

మూడు నిర్దిష్ట అంశాలను పరీక్షించండి:

ప్రవర్తన (Behavior): ఏజెంట్ సరైన క్రమంలో సరైన టూల్‌ను ఎంచుకుంటుందా?
టూల్ కాల్స్ (Tool calls): ఆర్గ్యుమెంట్స్ సరైనవిగా మరియు సురక్షితమైన పరిధిలో ఉన్నాయా?
ఫెయిల్యూర్ మోడ్స్ (Failure modes): ఒక API టైమ్ అవుట్ అయినప్పుడు లేదా తప్పుడు డేటాను (garbage) ఇచ్చినప్పుడు ఏం జరుగుతుంది?

ఎల్లప్పుడూ విజయవంతమయ్యే ఒక మ్యాక్ (mock) ఏజెంట్‌కు ఏమీ నేర్పదు. నెట్‌వర్క్ టైమ్ అవుట్స్ లేదా తప్పుగా ఉన్న డేటా (malformed data) వంటి వైఫల్యాలను ఇంజెక్ట్ చేయడానికి మీ ప్లేగ్రౌండ్ అనుమతించాలి. దీని ద్వారానే ఏజెంట్ తెలివిగా మళ్ళీ ప్రయత్నిస్తుందా లేదా హాలూసినేట్ (hallucinating) చేయడం ప్రారంభిస్తుందా అనేది మీరు చూడగలరు.

మీ ఏజెంట్ కోడ్‌ను రన్ చేస్తే, మీకు బలమైన ఐసోలేషన్ (isolation) అవసరం. నమ్మకం లేని కోడ్ కోసం microVMలను ఉపయోగించండి. కేవలం సులభంగా ఉన్నాయని సింపుల్ కంటైనర్లతో ప్రారంభించకండి. సులభమైన సెటప్ వల్ల భారీ భద్రతా సమస్యలు తలెత్తవచ్చు.

ఏజెంట్లు నాన్-డిటర్మినిస్టిక్ (non-deterministic) అని గుర్తుంచుకోండి. ఒకసారి పాస్ అయిన టెస్ట్ ఏజెంట్ నమ్మదగినదని అర్థం కాదు. మీరు ఒకే టాస్క్‌ను పలుమార్లు రన్ చేయాలి. ఒక ఏజెంట్ 10 సార్లు చేసినప్పుడు 7 సార్లు పాస్ అయితే, అది మీ నిజమైన వినియోగదారులలో సుమారు 30% మందికి విఫలమవుతుంది. స్థిరత్వం (Consistency) అనేది మీ అత్యంత ముఖ్యమైన కొలమానం.

చివరగా, అడ్వర్సేరియల్ టూల్ అవుట్‌పుట్‌ల (adversarial tool outputs) నుండి రక్షణ పొందండి. ఏజెంట్ టూల్ డేటాను సూచనలుగా (instructions) పరిగణిస్తుంది. ఒక దురుద్దేశపూరిత వినియోగదారుడు ప్రాంప్ట్ ఇంజెక్షన్ (prompt injection) ద్వారా ఏజెంట్‌ను తప్పుదారి పట్టించడానికి డేటాబేస్‌లో డేటాను నింపవచ్చు. ప్లేగ్రౌండ్‌లో హొస్టైల్ పేలోడ్‌లను (hostile payloads) అందిస్తూ మీ ఏజెంట్‌ను పరీక్షించండి.

లాంచ్ బటన్‌ను కాకుండా, గ్రాడ్యుయేషన్ పాత్‌ను (graduation path) నిర్మించండి:

మ్యాక్స్ మరియు పూర్తి శాండ్‌బాక్సింగ్‌తో ప్రారంభించండి.
అనేక రన్ల ద్వారా స్థిరత్వం కోసం పరీక్షించండి.
అడ్వర్సేరియల్ ఇన్‌పుట్‌లకు వ్యతిరేకంగా పరీక్షించండి.
ప్రొడక్షన్ తరహా డేటాతో డ్రై-రన్ (dry-run) మోడ్‌కు మారండి.
అప్పుడే పరిమితమైన, నియంత్రించబడిన మరియు పర్యవేక్షించబడే యాక్సెస్‌ను ఇవ్వండి.

మీ ఏజెంట్ తప్పులు చేయడానికి తక్కువ ఖర్చుతో కూడిన చోటును ఇవ్వండి. అప్పుడు అది నిజంగా అవసరమైన చోట సరిగ్గా పనిచేయగలదు.

Source: https://dev.to/nazar_boyko/building-an-ai-agent-playground-before-giving-it-production-access-4glh

Optional learning community: https://t.me/GyaanSetuAi

ప్రొడక్షన్‌కు ముందు ఒక AI ఏజెంట్ ప్లేగ్రౌండ్‌ను నిర్మించడం

ప్రొడక్షన్‌కు ముందు ఒక AI ఏజెంట్ ప్లేగ్రౌండ్‌ను నిర్మించడం

Continue reading

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗣𝗮𝘀𝘀𝗲𝗱 𝗔𝗹𝗹 𝗧𝗲𝘀𝘁𝘀 — 𝗧𝗵𝗲𝗻 𝗙𝗮𝗶𝗹𝗲𝗱 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

ప్రొడక్షన్‌లో AI ఏజెంట్లను నడపడం ద్వారా నేను నేర్చుకున్న విషయాలు

ప్రొడక్షన్ AI ఏజెంట్లను రూపొందించడానికి నేను ఉపయోగించే ఖచ్చితమైన స్టాక్

సాండ్‌బాక్స్‌ల పరిధికి మించి: మన్నికైన AI ఏజెంట్లను నిర్మించడం

Inside An AI Agent