Evaluating Agentic AI In The Age Of LLM Benchmarks

Translated for your language. Read the original.

AI-assisted draft.

Evaluating Agentic AI In The Age Of LLM Benchmarks

LLM బెంచ్‌మార్క్‌ల యుగంలో ఏజెంటిక్ AIని అంచనా వేయడం

చాలా AI పరీక్షలు ఒక సాధారణ పద్ధతిని అనుసరిస్తాయి. మీరు ఒక మోడల్‌కు ప్రాంప్ట్‌ను ఇస్తారు. సమాధానాన్ని ఒక రిఫరెన్స్‌తో పోలుస్తారు. ఫలితాన్ని స్కోర్ చేస్తారు.

ఇది సమ్మరీల (summaries) కోసం పనిచేస్తుంది. ఇది క్లాసిఫికేషన్ (classification) కోసం పనిచేస్తుంది. కానీ ఒక మోడల్ మారుతున్న వాతావరణంలో పనిచేయాల్సి వచ్చినప్పుడు ఇది విఫలమవుతుంది.

'The Age of LLM' పేపర్ ఒక మెరుగైన పద్ధతిని పరిచయం చేస్తుంది. ఇది గ్రిడ్‌పై జరిగే 1v1 గేమ్. రెండు మోడల్‌లు 'fog of war' కింద పోటీ పడతాయి. అవి అన్నింటినీ చూడలేవు. శత్రు యూనిట్లను కనుగొనడానికి అవి స్కౌట్ చేయాలి లేదా ఊహించాలి. ఒప్పందాలు లేదా అల్టిమేటమ్స్ ప్రతిపాదించడానికి అవి డిప్లొమసీని ఉపయోగించాలి.

ప్రతి మూవ్ (move) కచ్చితమైన JSON schemaను అనుసరించాలి. ఒక మూవ్ చట్టవిరుద్ధమైతే, సిస్టమ్ దానిని తోసివేస్తుంది.

ఈ పరీక్ష నిర్దిష్ట నైపుణ్యాలను కొలుస్తుంది:

స్టేట్ ట్రాకింగ్ (State tracking): మోడల్ తాను చూసిన దానిని మరియు కోల్పోయిన దానిని గుర్తుంచుకుంటుందా?
బిలీఫ్ మేనేజ్‌మెంట్ (Belief management): అసంపూర్ణ సమాచారంతో అది వివేకవంతంగా వ్యవహరిస్తుందా?
యాక్షన్ వాలిడిటీ (Action validity): అది వాతావరణ నియమాలను అనుసరిస్తుందా?
లాంగ్-హోరైజన్ స్ట్రాటజీ (Long-horizon strategy): లక్ష్యాన్ని చేరుకోవడానికి అవసరమైన మూవ్స్ క్రమాన్ని అది ఎంచుకోగలదా?

ఒక మోడల్ వినడానికి ఫ్లూయెంట్‌గా అనిపించవచ్చు కానీ ఆచరణలో విఫలం కావచ్చు. అది తన స్టేట్‌ను మర్చిపోవచ్చు లేదా తప్పుడు టూల్ కాల్స్ (tool calls) చేయవచ్చు.

ఫలితాలు ఒక పద్ధతిని చూపుతున్నాయి. అనిశ్చితిలో చాలా మోడల్‌లు సాధారణ ఉచ్చులలో పడిపోతున్నాయి. చాలా మోడల్‌లు దూకుడుగా ఉండే సైనిక చర్యలను ఎంచుకున్నాయి. డిప్లొమసీ జరిగింది కానీ, ఒప్పందాలు అరుదుగా పూర్తయ్యాయి. చాలా తప్పులు పేలవమైన స్టేట్ ట్రాకింగ్ వల్ల వచ్చాయి.

స్టాండర్డ్ బెంచ్‌మార్క్‌లు ఈ వైఫల్యాలను గుర్తించలేవు. ఒక మోడల్ అద్భుతమైన వివరణను రాయగలదు కానీ దాగి ఉన్న యూనిట్‌ను ట్రాక్ చేయడంలో విఫలం కావచ్చు. వాతావరణం మోడల్‌ను పనిచేయమని ఒత్తిడి చేసినప్పుడు మాత్రమే మీరు దీనిని గమనించగలరు.

ప్రస్తుత AI పరిశోధనలు తరచుగా టూల్ యూజ్ (tool use) పై దృష్టి సారిస్తాయి. టూల్ యూజ్ అవసరమే, కానీ అది సరిపోదు. ఒక నిజమైన ఏజెంట్ సందర్భాన్ని (context) కాపాడుకోవాలి మరియు పరిస్థితులు మారినప్పుడు తిరిగి కోలుకోవాలి.

పరిశ్రమ చాట్ క్వాలిటీ నుండి అవుట్‌కమ్స్ (outcomes) వైపు మళ్లుతోంది. ఉపయోగకరమైన సిస్టమ్‌లను అవి పనిని పూర్తి చేస్తాయా లేదా అనే దానితో కొలుస్తారు, అవి ఎంత చక్కని గద్యాన్ని (polished prose) ఉత్పత్తి చేస్తాయనే దానితో కాదు.

ఒక ఏజెంట్ బిలీఫ్ స్టేట్‌ను నిర్వహించలేకపోతే, అది వ్యూహాత్మకమైనది కాదు. అది ఒక స్కీమాను అనుసరించలేకపోతే, దాని టూల్ యూజ్ బలహీనంగా ఉంటుంది.

నిజమైన ఏజెంటిక్ సామర్థ్యానికి రెండు విషయాలు అవసరం:

ప్లాన్ చేసే సామర్థ్యం.
అనిశ్చితిలో అమలు చేసే సామర్థ్యం.

సాఫ్ట్‌వేర్‌లో, తప్పుడు అవుట్‌పుట్ అనేది ఒక బగ్. AI ఏజెంట్లలో, తప్పుడు అవుట్‌పుట్ తరచుగా ఒక సైలెంట్ ఫెయిల్యూర్ (silent failure). ఒక టూల్ కాల్ ఏమీ చేయదు. ఒక దాగి ఉన్న ఊహ తప్పు కావచ్చు. మీరు కేవలం చివరి సమాధానానికి మాత్రమే స్కోర్ ఇస్తే, మీరు సమస్యను గుర్తించలేరు.

మనం వీటి కోసం పరీక్షించాలి:

పార్షియల్ అబ్జర్వబిలిటీ (Partial observability)
హిడెన్ స్టేట్ (Hidden state)
లాంగ్-హోరైజన్ కోఆర్డినేషన్ (Long-horizon coordination)
యాక్షన్ వాలిడిటీ (Action validity)
తప్పుల నుండి కోలుకోవడం (Recovery from mistakes)

ఈ సిస్టమ్‌లు నిజ ప్రపంచంలో ఎలా పనిచేస్తాయో, అంచనా వేయడం (Evaluation) కూడా దానికి దగ్గరగా ఉండాలి.

Source: https://dev.to/prabhakar_chaudhary_7afe4/what-the-age-of-llm-benchmark-says-about-evaluating-agentic-ai-2hfc

Optional learning community: https://t.me/GyaanSetuAi

Evaluating Agentic AI In The Age Of LLM Benchmarks

LLM బెంచ్‌మార్క్‌ల యుగంలో ఏజెంటిక్ AIని అంచనా వేయడం

Continue reading

𝗦𝗰𝗼𝗿𝗶𝗻𝗴 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀: 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗠𝗲𝘁𝗿𝗶𝗰𝘀 + 𝗮𝗻 𝗟𝗟𝗠 𝗝𝘂𝗱𝗴𝗲

AI ఏజెంట్ చర్యలను నిర్ణయించడానికి LLMని ఉపయోగించకండి

ఏజెంటిక్ లూప్: ఒక ఆచరణాత్మక ఫీల్డ్ గైడ్

AI ఏజెంట్ మూల్యాంకనం చాలా త్వరగా ముగిసిపోతుంది

Observability in Agentic AI