క్లౌడ్ టాస్క్ల కోసం కొత్త బెంచ్మార్క్
AI పనితీరు అసమానంగా ఉంటుంది. ఒక మోడల్ కోడింగ్ బెంచ్మార్క్లలో అగ్రస్థానంలో ఉండవచ్చు కానీ క్లౌడ్ పనులలో విఫలం కావచ్చు. ఇది తరచుగా లేని వనరులను (resources) సృష్టిస్తుంది.
ప్రస్తుత బెంచ్మార్క్లు కోడింగ్ మరియు రీజనింగ్ను కవర్ చేస్తాయి. క్లౌడ్ మేనేజ్మెంట్ టాస్క్ల కోసం ఎటువంటి బెంచ్మార్క్ లేదు.
మేము ఆ బెంచ్మార్క్ను రూపొందిస్తున్నాము.
మేము Codex మరియు Claude Code వంటి సాధనాలను పరీక్షిస్తాము. మా మొదటి పరీక్ష AWS పై నడుస్తుంది. మేము తర్వాత Azure మరియు GCP ల కోసం ఉపయోగపడే ఒక టెంప్లేట్ను ఉపయోగిస్తాము.
మా పద్ధతి
మేము Infrastructure as Code (IaC)ని ఆన్సర్ కీగా ఉపయోగిస్తాము. Terraform వనరులను నిర్మిస్తుంది. దాని అవుట్పుట్ వాస్తవ సమాచారాన్ని అందిస్తుంది. ఉండాల్సిన ఖచ్చితమైన రిసోర్స్ ఐడిలు (resource IDs) మాకు తెలుసు. ఇది మానవ తప్పిదాలను తొలగిస్తుంది. ఎవరైనా ఒకే ఫలితాన్ని పొందడానికి అదే స్టాక్ను (stack) రన్ చేయవచ్చు.
మేము రెండు వేరియబుల్స్ను పరీక్షిస్తాము:
• పరిమాణం (Size): చిన్న అకౌంట్లు, మధ్యస్థ అకౌంట్లు మరియు వేలకొద్దీ డిపెండెన్సీలు ఉన్న పెద్ద అకౌంట్లు. • చరిత్ర (History): స్వచ్ఛమైన IaC ఉన్న కొత్త అకౌంట్లు మరియు గందరగోళంగా ఉన్న ట్యాగ్లు మరియు మాన్యువల్ మార్పులు ఉన్న పాత అకౌంట్లు.
చిన్న, స్వచ్ఛమైన అకౌంట్లపై మాత్రమే పనిచేసే సాధనం నిజమైన ప్రొడక్షన్ ఎన్విరాన్మెంట్లలో విఫలమవుతుంది.
మేము ఏజెంట్ను పరిమితంగా ఉంచుతాము. ఇది రీడ్-ఓన్లీ క్రెడెన్షియల్స్తో (read-only credentials) ఒకే కంటైనర్లో నడుస్తుంది. ప్రతి చర్యను ట్రాక్ చేయడానికి మేము CloudTrailని ఉపయోగిస్తాము. నెట్వర్క్ లోపాలను నివారించడానికి మేము ప్రతి పరీక్షను మూడుసార్లు పునరావృతం చేస్తాము.
మేము ప్రతి తప్పు సమాధానాన్ని వర్గీకరిస్తాము:
- కనుగొనబడింది (Found): ఏజెంట్ వనరును చూసింది.
- విస్మరించబడింది (Missed): ఏజెంట్ దానిని చూడటంలో విఫలమైంది.
- ఫ్లాగ్ చేయబడింది (Flagged): ఏజెంట్ ప్రస్తుతం వాడుకలో ఉన్న వనరును రిపోర్ట్ చేసింది.
- కల్పించబడింది (Fabricated): ఏజెంట్ లేని రిసోర్స్ ఐడిని సృష్టించింది.
మా మొదటి టాస్క్ AWS వేస్ట్ డిస్కవరీ (waste discovery) పై దృష్టి పెడుతుంది. అటాచ్ చేయని వాల్యూమ్స్ (unattached volumes) మరియు ఉపయోగించని IPలను అమర్చడానికి మేము Terraformని ఉపయోగిస్తాము. ఏజెంట్ తప్పులు చేస్తుందో లేదో చూడటానికి మేము యాక్టివ్ వనరులను కూడా జోడిస్తాము.
వేస్ట్ డిస్కవరీ మొదటి పరీక్ష ఎందుకంటే ఇది డబ్బును ఆదా చేస్తుంది మరియు స్పష్టమైన స్కోర్లను కలిగి ఉంటుంది. భవిష్యత్తు పరీక్షలు సెక్యూరిటీ ఆడిట్లు మరియు ఆర్కిటెక్చర్ పునర్నిర్మాణాన్ని (architecture reconstruction) కవర్ చేస్తాయి.
మేము రా (raw) లాగ్లు మరియు ప్రాంప్ట్లతో సహా మా పూర్తి ప్రక్రియను ప్రచురిస్తాము. ఫలితాలు బాగోలేకపోయినా మేము వాటిని పంచుకుంటాము.
మాకు మీ ఫీడ్బ్యాక్ కావాలి.
ఈ పద్ధతి ఎక్కడ బలహీనంగా ఉంది? ఒక పరీక్ష నిజమైన అకౌంట్లా అనిపించడానికి ఏది అవసరం? మేము తదుపరి ఏ టాస్క్ను పరీక్షించాలి?
Source: https://dev.to/rachcorp/new-benchmark-for-cloud-tasks-4o1
Optional learning community: https://t.me/GyaanSetuAi
