New Benchmark for Cloud Tasks

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial20 గంటల క్రితం2min read

క్లౌడ్ టాస్క్‌ల కోసం కొత్త బెంచ్‌మార్క్

AI పనితీరు అసమానంగా ఉంటుంది. ఒక మోడల్ కోడింగ్ బెంచ్‌మార్క్‌లలో అగ్రస్థానంలో ఉండవచ్చు కానీ క్లౌడ్ పనులలో విఫలం కావచ్చు. ఇది తరచుగా లేని వనరులను (resources) సృష్టిస్తుంది.

ప్రస్తుత బెంచ్‌మార్క్‌లు కోడింగ్ మరియు రీజనింగ్‌ను కవర్ చేస్తాయి. క్లౌడ్ మేనేజ్‌మెంట్ టాస్క్‌ల కోసం ఎటువంటి బెంచ్‌మార్క్ లేదు.

మేము ఆ బెంచ్‌మార్క్‌ను రూపొందిస్తున్నాము.

మేము Codex మరియు Claude Code వంటి సాధనాలను పరీక్షిస్తాము. మా మొదటి పరీక్ష AWS పై నడుస్తుంది. మేము తర్వాత Azure మరియు GCP ల కోసం ఉపయోగపడే ఒక టెంప్లేట్‌ను ఉపయోగిస్తాము.

మా పద్ధతి

మేము Infrastructure as Code (IaC)ని ఆన్సర్ కీగా ఉపయోగిస్తాము. Terraform వనరులను నిర్మిస్తుంది. దాని అవుట్‌పుట్ వాస్తవ సమాచారాన్ని అందిస్తుంది. ఉండాల్సిన ఖచ్చితమైన రిసోర్స్ ఐడిలు (resource IDs) మాకు తెలుసు. ఇది మానవ తప్పిదాలను తొలగిస్తుంది. ఎవరైనా ఒకే ఫలితాన్ని పొందడానికి అదే స్టాక్‌ను (stack) రన్ చేయవచ్చు.

మేము రెండు వేరియబుల్స్‌ను పరీక్షిస్తాము:

• పరిమాణం (Size): చిన్న అకౌంట్లు, మధ్యస్థ అకౌంట్లు మరియు వేలకొద్దీ డిపెండెన్సీలు ఉన్న పెద్ద అకౌంట్లు. • చరిత్ర (History): స్వచ్ఛమైన IaC ఉన్న కొత్త అకౌంట్లు మరియు గందరగోళంగా ఉన్న ట్యాగ్‌లు మరియు మాన్యువల్ మార్పులు ఉన్న పాత అకౌంట్లు.

చిన్న, స్వచ్ఛమైన అకౌంట్లపై మాత్రమే పనిచేసే సాధనం నిజమైన ప్రొడక్షన్ ఎన్విరాన్‌మెంట్లలో విఫలమవుతుంది.

మేము ఏజెంట్‌ను పరిమితంగా ఉంచుతాము. ఇది రీడ్-ఓన్లీ క్రెడెన్షియల్స్‌తో (read-only credentials) ఒకే కంటైనర్‌లో నడుస్తుంది. ప్రతి చర్యను ట్రాక్ చేయడానికి మేము CloudTrailని ఉపయోగిస్తాము. నెట్‌వర్క్ లోపాలను నివారించడానికి మేము ప్రతి పరీక్షను మూడుసార్లు పునరావృతం చేస్తాము.

మేము ప్రతి తప్పు సమాధానాన్ని వర్గీకరిస్తాము:

కనుగొనబడింది (Found): ఏజెంట్ వనరును చూసింది.
విస్మరించబడింది (Missed): ఏజెంట్ దానిని చూడటంలో విఫలమైంది.
ఫ్లాగ్ చేయబడింది (Flagged): ఏజెంట్ ప్రస్తుతం వాడుకలో ఉన్న వనరును రిపోర్ట్ చేసింది.
కల్పించబడింది (Fabricated): ఏజెంట్ లేని రిసోర్స్ ఐడిని సృష్టించింది.

మా మొదటి టాస్క్ AWS వేస్ట్ డిస్కవరీ (waste discovery) పై దృష్టి పెడుతుంది. అటాచ్ చేయని వాల్యూమ్స్ (unattached volumes) మరియు ఉపయోగించని IPలను అమర్చడానికి మేము Terraformని ఉపయోగిస్తాము. ఏజెంట్ తప్పులు చేస్తుందో లేదో చూడటానికి మేము యాక్టివ్ వనరులను కూడా జోడిస్తాము.

వేస్ట్ డిస్కవరీ మొదటి పరీక్ష ఎందుకంటే ఇది డబ్బును ఆదా చేస్తుంది మరియు స్పష్టమైన స్కోర్‌లను కలిగి ఉంటుంది. భవిష్యత్తు పరీక్షలు సెక్యూరిటీ ఆడిట్‌లు మరియు ఆర్కిటెక్చర్ పునర్నిర్మాణాన్ని (architecture reconstruction) కవర్ చేస్తాయి.

మేము రా (raw) లాగ్‌లు మరియు ప్రాంప్ట్‌లతో సహా మా పూర్తి ప్రక్రియను ప్రచురిస్తాము. ఫలితాలు బాగోలేకపోయినా మేము వాటిని పంచుకుంటాము.

మాకు మీ ఫీడ్‌బ్యాక్ కావాలి.

ఈ పద్ధతి ఎక్కడ బలహీనంగా ఉంది? ఒక పరీక్ష నిజమైన అకౌంట్‌లా అనిపించడానికి ఏది అవసరం? మేము తదుపరి ఏ టాస్క్‌ను పరీక్షించాలి?

Source: https://dev.to/rachcorp/new-benchmark-for-cloud-tasks-4o1

Optional learning community: https://t.me/GyaanSetuAi

New Benchmark for Cloud Tasks

క్లౌడ్ టాస్క్‌ల కోసం కొత్త బెంచ్‌మార్క్

మా పద్ధతి

Continue reading

New AA Briefcase Benchmark Reveals AI’s Struggle With Real Knowledge Work

AWS Launches New Services to Solve AI Agent Security and Context Gaps

వెబ్ డేటా ఇన్‌ఫ్రాస్ట్రక్చర్ ఆవిర్భావం: AI యొక్క నాలెడ్జ్ బాటిల్‌నెక్ సమస్యను పరిష్కరించడం

సాధారణ AI బెంచ్‌మార్క్‌లు ఏజెంట్ సామర్థ్యాలను క్రమబద్ధంగా ఎందుకు తక్కువ అంచనా వేస్తాయి?