𝗦𝗰𝗼𝗿𝗶𝗻𝗴 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀: 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗠𝗲𝘁𝗿𝗶𝗰𝘀 + 𝗮𝗻 𝗟𝗟𝗠 𝗝𝘂𝗱𝗴𝗲
మీరు అనేక చిన్న AI ఏజెంట్లను నడుపుతారు. మీ వద్ద backend, frontend, mobile మరియు devops కోసం ఏజెంట్లు ఉన్నాయి. ప్రతి ఏజెంట్కు ఒకే ఒక పని ఉంటుంది.
మీకు అనేక ఏజెంట్లు ఉన్నప్పుడు, మీరు ఒక సమస్యను ఎదుర్కొంటారు. అవి ఎంత బాగా పనిచేస్తున్నాయో మీకు తెలియదు. ఒక prompt మార్పు వాటిని మెరుగుపరుస్తుందా లేదా మరింత అధ్వాన్నం చేస్తదా అనేది మీకు తెలియదు. "ఇది బాగుంది" అని చెప్పడం పెద్ద ఎత్తున (at scale) పనికిరాదు.
దీనిని పరిష్కరించడానికి నేను ఒక ఫ్రేమ్వర్క్ను రూపొందించాను. ఇది పనితీరును కొలవడానికి సంఖ్యలను ఉపయోగిస్తుంది మరియు prompts ను స్వయంచాలకంగా మెరుగుపరుస్తుంది.
వ్యూహం (The Strategy)
మొదట గణితంతో కొలవగలిగే వాటిని కొలవండి. తప్పనిసరి అయినప్పుడు మాత్రమే LLM judge ను ఉపయోగించండి. Deterministic metrics వేగంగా మరియు ఉచితంగా ఉంటాయి. LLM judge నెమ్మదిగా ఉంటుంది మరియు ఖర్చుతో కూడుకున్నది.
సిస్టమ్ ఎలా పనిచేస్తుంది:
• harness ప్రతి ఏజెంట్ను ఒక ప్రత్యేక process గా నడుపుతుంది. • ఇది ఏజెంట్కు ఒక task ను అందిస్తుంది. • ఇది output ను సేకరిస్తుంది. • ఇది ఆశించిన డేటాతో పోల్చి ఫలితాన్ని score చేస్తుంది.
ఏజెంట్ కేవలం stdin నుండి చదవడానికి మరియు stdout కి వ్రాయడానికి మాత్రమే అవసరమవుతుంది. అది Python లేదా ఒక shell script కావచ్చు. harness దానికి సంబంధం లేకుండా పనిచేస్తుంది.
ట్రాక్ చేయవలసిన ఐదు ప్రధాన మెట్రిక్స్:
- Accuracy: అవుట్పుట్ లక్ష్యానికి అనుగుణంగా ఉందా?
- Fuzzy score: టెక్స్ట్ లక్ష్యానికి ఎంత దగ్గరగా ఉంది?
- Timeout rate: ఏజెంట్ ఎంత తరచుగా పూర్తి చేయడంలో విఫలమవుతోంది?
- Safety violations: అవుట్పుట్ అసురక్షిత నమూనాలకు (unsafe patterns) అనుగుణంగా ఉందా?
- Reproducibility variance: ఏజెంట్ ప్రతిసారీ ఒకే సమాధానాన్ని ఇస్తుందా?
ఒక ఏజెంట్ సరైన సమాధానం ఇస్తూనే అస్థిరంగా (inconsistent) ఉంటే, అది ఒక bug.
LLM Judge
కొన్ని విషయాలను గణితంతో కొలవడం కష్టం. ఏజెంట్ తన పాత్రలో ఉన్నాడా లేదా నిబంధనలను (constraints) పాటించిందా లేదా అనేది మీరు తెలుసుకోవాలి.
ఇటువంటి సందర్భాలలో, LLM judge పనిని సమీక్షిస్తుంది. ఇది ఒక rubric మరియు ఏజెంట్ output ను అందుకుంటుంది. ఇది ఒక structured verdict ను అందిస్తుంది. రిపోర్ట్ పాడవకుండా ఉండటానికి నేను ఈ verdict ను JSON schema తో ధృవీకరిస్తాను.
Judge కేవలం గ్రేడ్ ఇవ్వడమే కాకుండా మరిన్ని పనులు చేస్తుంది. అది పరిష్కారాలను సూచించాలి. "ఇది బలహీనంగా ఉంది" అనే విమర్శ ఉపయోగపడదు. "prompt కు ఒక JSON block ను జోడించండి" అనే విమర్శ ఆచరణాత్మకంగా (actionable) ఉంటుంది.
ఇంప్రూవ్మెంట్ లూప్ (The Improvement Loop)
వైఫల్యాలు ఒక ఫైల్లోకి వెళ్తాయి. ఈ ఫైల్ ఒక automated loop కు ఇన్పుట్గా మారుతుంది. సిస్టమ్ prompt లోని అత్యంత బలహీనమైన భాగాన్ని గుర్తించి, దానిని సరిచేయడానికి ప్రయత్నిస్తుంది. ఇది మంచి అభ్యర్థుల (candidates) సమూహాన్ని ఉంచుతుంది. ఉత్తమ వెర్షన్లను తిరిగి కోడ్లోకి వ్రాస్తుంది.
ఒకే ఒక score అనేది కేవలం ఒక క్షణిక దృశ్యం (snapshot) మాత్రమే. ట్రెండ్స్ను ట్రాక్ చేయడానికి history ను ఉపయోగించండి. దీనివల్ల కాలక్రమేణా మీరు మెరుగుపడుతున్నారో లేదో తెలుస్తుంది.
మీ పునాదిని deterministic metrics పై నిర్మించుకోండి. Judge ను సుత్తిలా కాకుండా, ఒక స్కాల్పెల్ (scalpel) లాగా ఉపయోగించండి.
ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi