LLM బెంచ్‌మార్క్‌ల యుగంలో ఏజెంటిక్ AIని అంచనా వేయడం

చాలా AI పరీక్షలు ఒక సాధారణ పద్ధతిని అనుసరిస్తాయి. మీరు ఒక మోడల్‌కు ప్రాంప్ట్‌ను ఇస్తారు. సమాధానాన్ని ఒక రిఫరెన్స్‌తో పోలుస్తారు. ఫలితాన్ని స్కోర్ చేస్తారు.

ఇది సమ్మరీల (summaries) కోసం పనిచేస్తుంది. ఇది క్లాసిఫికేషన్ (classification) కోసం పనిచేస్తుంది. కానీ ఒక మోడల్ మారుతున్న వాతావరణంలో పనిచేయాల్సి వచ్చినప్పుడు ఇది విఫలమవుతుంది.

'The Age of LLM' పేపర్ ఒక మెరుగైన పద్ధతిని పరిచయం చేస్తుంది. ఇది గ్రిడ్‌పై జరిగే 1v1 గేమ్. రెండు మోడల్‌లు 'fog of war' కింద పోటీ పడతాయి. అవి అన్నింటినీ చూడలేవు. శత్రు యూనిట్లను కనుగొనడానికి అవి స్కౌట్ చేయాలి లేదా ఊహించాలి. ఒప్పందాలు లేదా అల్టిమేటమ్స్ ప్రతిపాదించడానికి అవి డిప్లొమసీని ఉపయోగించాలి.

ప్రతి మూవ్ (move) కచ్చితమైన JSON schemaను అనుసరించాలి. ఒక మూవ్ చట్టవిరుద్ధమైతే, సిస్టమ్ దానిని తోసివేస్తుంది.

ఈ పరీక్ష నిర్దిష్ట నైపుణ్యాలను కొలుస్తుంది:

  • స్టేట్ ట్రాకింగ్ (State tracking): మోడల్ తాను చూసిన దానిని మరియు కోల్పోయిన దానిని గుర్తుంచుకుంటుందా?
  • బిలీఫ్ మేనేజ్‌మెంట్ (Belief management): అసంపూర్ణ సమాచారంతో అది వివేకవంతంగా వ్యవహరిస్తుందా?
  • యాక్షన్ వాలిడిటీ (Action validity): అది వాతావరణ నియమాలను అనుసరిస్తుందా?
  • లాంగ్-హోరైజన్ స్ట్రాటజీ (Long-horizon strategy): లక్ష్యాన్ని చేరుకోవడానికి అవసరమైన మూవ్స్ క్రమాన్ని అది ఎంచుకోగలదా?

ఒక మోడల్ వినడానికి ఫ్లూయెంట్‌గా అనిపించవచ్చు కానీ ఆచరణలో విఫలం కావచ్చు. అది తన స్టేట్‌ను మర్చిపోవచ్చు లేదా తప్పుడు టూల్ కాల్స్ (tool calls) చేయవచ్చు.

ఫలితాలు ఒక పద్ధతిని చూపుతున్నాయి. అనిశ్చితిలో చాలా మోడల్‌లు సాధారణ ఉచ్చులలో పడిపోతున్నాయి. చాలా మోడల్‌లు దూకుడుగా ఉండే సైనిక చర్యలను ఎంచుకున్నాయి. డిప్లొమసీ జరిగింది కానీ, ఒప్పందాలు అరుదుగా పూర్తయ్యాయి. చాలా తప్పులు పేలవమైన స్టేట్ ట్రాకింగ్ వల్ల వచ్చాయి.

స్టాండర్డ్ బెంచ్‌మార్క్‌లు ఈ వైఫల్యాలను గుర్తించలేవు. ఒక మోడల్ అద్భుతమైన వివరణను రాయగలదు కానీ దాగి ఉన్న యూనిట్‌ను ట్రాక్ చేయడంలో విఫలం కావచ్చు. వాతావరణం మోడల్‌ను పనిచేయమని ఒత్తిడి చేసినప్పుడు మాత్రమే మీరు దీనిని గమనించగలరు.

ప్రస్తుత AI పరిశోధనలు తరచుగా టూల్ యూజ్ (tool use) పై దృష్టి సారిస్తాయి. టూల్ యూజ్ అవసరమే, కానీ అది సరిపోదు. ఒక నిజమైన ఏజెంట్ సందర్భాన్ని (context) కాపాడుకోవాలి మరియు పరిస్థితులు మారినప్పుడు తిరిగి కోలుకోవాలి.

పరిశ్రమ చాట్ క్వాలిటీ నుండి అవుట్‌కమ్స్ (outcomes) వైపు మళ్లుతోంది. ఉపయోగకరమైన సిస్టమ్‌లను అవి పనిని పూర్తి చేస్తాయా లేదా అనే దానితో కొలుస్తారు, అవి ఎంత చక్కని గద్యాన్ని (polished prose) ఉత్పత్తి చేస్తాయనే దానితో కాదు.

ఒక ఏజెంట్ బిలీఫ్ స్టేట్‌ను నిర్వహించలేకపోతే, అది వ్యూహాత్మకమైనది కాదు. అది ఒక స్కీమాను అనుసరించలేకపోతే, దాని టూల్ యూజ్ బలహీనంగా ఉంటుంది.

నిజమైన ఏజెంటిక్ సామర్థ్యానికి రెండు విషయాలు అవసరం:

  1. ప్లాన్ చేసే సామర్థ్యం.
  2. అనిశ్చితిలో అమలు చేసే సామర్థ్యం.

సాఫ్ట్‌వేర్‌లో, తప్పుడు అవుట్‌పుట్ అనేది ఒక బగ్. AI ఏజెంట్లలో, తప్పుడు అవుట్‌పుట్ తరచుగా ఒక సైలెంట్ ఫెయిల్యూర్ (silent failure). ఒక టూల్ కాల్ ఏమీ చేయదు. ఒక దాగి ఉన్న ఊహ తప్పు కావచ్చు. మీరు కేవలం చివరి సమాధానానికి మాత్రమే స్కోర్ ఇస్తే, మీరు సమస్యను గుర్తించలేరు.

మనం వీటి కోసం పరీక్షించాలి:

  • పార్షియల్ అబ్జర్వబిలిటీ (Partial observability)
  • హిడెన్ స్టేట్ (Hidden state)
  • లాంగ్-హోరైజన్ కోఆర్డినేషన్ (Long-horizon coordination)
  • యాక్షన్ వాలిడిటీ (Action validity)
  • తప్పుల నుండి కోలుకోవడం (Recovery from mistakes)

ఈ సిస్టమ్‌లు నిజ ప్రపంచంలో ఎలా పనిచేస్తాయో, అంచనా వేయడం (Evaluation) కూడా దానికి దగ్గరగా ఉండాలి.

Source: https://dev.to/prabhakar_chaudhary_7afe4/what-the-age-of-llm-benchmark-says-about-evaluating-agentic-ai-2hfc

Optional learning community: https://t.me/GyaanSetuAi