𝗦𝗰𝗼𝗿𝗶𝗻𝗴 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀: 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗠𝗲𝘁𝗿𝗶𝗰𝘀 + 𝗮𝗻 𝗟𝗟𝗠 𝗝𝘂𝗱𝗴𝗲

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial4 రోజుల క్రితం2min read

మీరు అనేక చిన్న AI ఏజెంట్లను నడుపుతారు. మీ వద్ద backend, frontend, mobile మరియు devops కోసం ఏజెంట్లు ఉన్నాయి. ప్రతి ఏజెంట్‌కు ఒకే ఒక పని ఉంటుంది.

మీకు అనేక ఏజెంట్లు ఉన్నప్పుడు, మీరు ఒక సమస్యను ఎదుర్కొంటారు. అవి ఎంత బాగా పనిచేస్తున్నాయో మీకు తెలియదు. ఒక prompt మార్పు వాటిని మెరుగుపరుస్తుందా లేదా మరింత అధ్వాన్నం చేస్తదా అనేది మీకు తెలియదు. "ఇది బాగుంది" అని చెప్పడం పెద్ద ఎత్తున (at scale) పనికిరాదు.

దీనిని పరిష్కరించడానికి నేను ఒక ఫ్రేమ్‌వర్క్‌ను రూపొందించాను. ఇది పనితీరును కొలవడానికి సంఖ్యలను ఉపయోగిస్తుంది మరియు prompts ను స్వయంచాలకంగా మెరుగుపరుస్తుంది.

వ్యూహం (The Strategy)

మొదట గణితంతో కొలవగలిగే వాటిని కొలవండి. తప్పనిసరి అయినప్పుడు మాత్రమే LLM judge ను ఉపయోగించండి. Deterministic metrics వేగంగా మరియు ఉచితంగా ఉంటాయి. LLM judge నెమ్మదిగా ఉంటుంది మరియు ఖర్చుతో కూడుకున్నది.

సిస్టమ్ ఎలా పనిచేస్తుంది:

• harness ప్రతి ఏజెంట్‌ను ఒక ప్రత్యేక process గా నడుపుతుంది. • ఇది ఏజెంట్‌కు ఒక task ను అందిస్తుంది. • ఇది output ను సేకరిస్తుంది. • ఇది ఆశించిన డేటాతో పోల్చి ఫలితాన్ని score చేస్తుంది.

ఏజెంట్ కేవలం stdin నుండి చదవడానికి మరియు stdout కి వ్రాయడానికి మాత్రమే అవసరమవుతుంది. అది Python లేదా ఒక shell script కావచ్చు. harness దానికి సంబంధం లేకుండా పనిచేస్తుంది.

ట్రాక్ చేయవలసిన ఐదు ప్రధాన మెట్రిక్స్:

Accuracy: అవుట్‌పుట్ లక్ష్యానికి అనుగుణంగా ఉందా?
Fuzzy score: టెక్స్ట్ లక్ష్యానికి ఎంత దగ్గరగా ఉంది?
Timeout rate: ఏజెంట్ ఎంత తరచుగా పూర్తి చేయడంలో విఫలమవుతోంది?
Safety violations: అవుట్‌పుట్ అసురక్షిత నమూనాలకు (unsafe patterns) అనుగుణంగా ఉందా?
Reproducibility variance: ఏజెంట్ ప్రతిసారీ ఒకే సమాధానాన్ని ఇస్తుందా?

ఒక ఏజెంట్ సరైన సమాధానం ఇస్తూనే అస్థిరంగా (inconsistent) ఉంటే, అది ఒక bug.

LLM Judge

కొన్ని విషయాలను గణితంతో కొలవడం కష్టం. ఏజెంట్ తన పాత్రలో ఉన్నాడా లేదా నిబంధనలను (constraints) పాటించిందా లేదా అనేది మీరు తెలుసుకోవాలి.

ఇటువంటి సందర్భాలలో, LLM judge పనిని సమీక్షిస్తుంది. ఇది ఒక rubric మరియు ఏజెంట్ output ను అందుకుంటుంది. ఇది ఒక structured verdict ను అందిస్తుంది. రిపోర్ట్ పాడవకుండా ఉండటానికి నేను ఈ verdict ను JSON schema తో ధృవీకరిస్తాను.

Judge కేవలం గ్రేడ్ ఇవ్వడమే కాకుండా మరిన్ని పనులు చేస్తుంది. అది పరిష్కారాలను సూచించాలి. "ఇది బలహీనంగా ఉంది" అనే విమర్శ ఉపయోగపడదు. "prompt కు ఒక JSON block ను జోడించండి" అనే విమర్శ ఆచరణాత్మకంగా (actionable) ఉంటుంది.

ఇంప్రూవ్‌మెంట్ లూప్ (The Improvement Loop)

వైఫల్యాలు ఒక ఫైల్‌లోకి వెళ్తాయి. ఈ ఫైల్ ఒక automated loop కు ఇన్‌పుట్‌గా మారుతుంది. సిస్టమ్ prompt లోని అత్యంత బలహీనమైన భాగాన్ని గుర్తించి, దానిని సరిచేయడానికి ప్రయత్నిస్తుంది. ఇది మంచి అభ్యర్థుల (candidates) సమూహాన్ని ఉంచుతుంది. ఉత్తమ వెర్షన్లను తిరిగి కోడ్‌లోకి వ్రాస్తుంది.

ఒకే ఒక score అనేది కేవలం ఒక క్షణిక దృశ్యం (snapshot) మాత్రమే. ట్రెండ్స్‌ను ట్రాక్ చేయడానికి history ను ఉపయోగించండి. దీనివల్ల కాలక్రమేణా మీరు మెరుగుపడుతున్నారో లేదో తెలుస్తుంది.

మీ పునాదిని deterministic metrics పై నిర్మించుకోండి. Judge ను సుత్తిలా కాకుండా, ఒక స్కాల్పెల్ (scalpel) లాగా ఉపయోగించండి.

ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi

𝗦𝗰𝗼𝗿𝗶𝗻𝗴 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀: 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗠𝗲𝘁𝗿𝗶𝗰𝘀 + 𝗮𝗻 𝗟𝗟𝗠 𝗝𝘂𝗱𝗴𝗲

Continue reading

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

𝗠𝘂𝗹𝘁𝗶 𝗔𝗴𝗲𝗻𝘁 𝗔𝗜 𝗦𝘆𝘀𝘁𝗲𝗺𝘀: 𝗔 𝗣𝗿𝗮𝗰𝘁𝗶𝗰𝗮𝗹 𝗚𝘂𝗶𝗱𝗲

𝗛𝗮𝗿𝗱𝗲𝗻𝗶𝗻𝗴 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗣𝗿𝗼𝗺𝗽𝘁 𝗜𝗻𝗷𝗲𝗰𝘁𝗶𝗼𝗻

LLM ప్రాంప్టింగ్‌లో నైపుణ్యం సాధించడం: డెవలపర్ల కోసం ఒక గైడ్

AI ఏజెంట్ చర్యలను నిర్ణయించడానికి LLMని ఉపయోగించకండి