क्लाउड टास्कसाठी नवीन बेंचमार्क

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial२३ तासांपूर्वी2min read

क्लाउड टास्कसाठी नवीन बेंचमार्क

AI ची कामगिरी असमान आहे. एखादे मॉडेल कोडिंग बेंचमार्कमध्ये अव्वल असू शकते परंतु क्लाउड कामात अपयशी ठरू शकते. ते अनेकदा अस्तित्वात नसलेले रिसोर्सेस (resources) तयार करते.

सध्याचे बेंचमार्क कोडिंग आणि तर्कशक्ती (reasoning) कव्हर करतात. क्लाउड मॅनेजमेंट टास्कसाठी कोणताही बेंचमार्क अस्तित्वात नाही.

आम्ही तो बेंचमार्क तयार करत आहोत.

आम्ही Codex आणि Claude Code सारख्या टूल्सची चाचणी घेतो. आमची पहिली चाचणी AWS वर चालते. आम्ही असा टेम्पलेट वापरतो जो नंतर Azure आणि GCP साठी देखील उपयुक्त ठरेल.

आमची कार्यपद्धती

आम्ही 'Infrastructure as Code' (IaC) चा वापर उत्तरपत्रिका (answer key) म्हणून करतो. Terraform रिसोर्सेस तयार करते. त्याचे आउटपुट सत्य माहिती प्रदान करते. कोणते रिसोर्स आयडी (resource IDs) अस्तित्वात असावेत हे आम्हाला अचूकपणे माहित असते. यामुळे मानवी चुका टाळता येतात. कोणीही समान निकाल मिळवण्यासाठी तोच स्टॅक (stack) चालवू शकतो.

आम्ही दोन व्हेरिएबल्सची (variables) चाचणी घेतो:

• आकार (Size): लहान अकाउंट्स, मध्यम अकाउंट्स आणि हजारो डिपेंडन्सीज (dependencies) असलेले मोठे अकाउंट्स. • इतिहास (History): शुद्ध IaC असलेले नवीन अकाउंट्स आणि विस्कळीत टॅग्स (tags) व मॅन्युअल बदल असलेले जुने अकाउंट्स.

जे टूल फक्त लहान आणि स्वच्छ अकाउंट्सवर काम करते, ते वास्तविक प्रोडक्शन एन्व्हायरनमेंटमध्ये (production environments) अपयशी ठरते.

आम्ही एजंटला मर्यादित ठेवतो. तो 'read-only' क्रेडेंशियल्ससह एका सिंगल कंटेनरमध्ये चालतो. प्रत्येक कृतीचा मागोवा घेण्यासाठी आम्ही CloudTrail वापरतो. नेटवर्क एरर्स टाळण्यासाठी आम्ही प्रत्येक चाचणी तीन वेळा घेतो.

आम्ही प्रत्येक चुकीच्या उत्तराचे वर्गीकरण करतो:

Found: एजंटने रिसोर्स पाहिला.
Missed: एजंट तो पाहण्यास अपयशी ठरला.
Flagged: एजंटने अशा रिसोर्सचा अहवाल दिला जो प्रत्यक्षात वापरात आहे.
Fabricated: एजंटने अस्तित्वात नसलेला रिसोर्स आयडी तयार केला.

आमचे पहिले कार्य AWS waste discovery वर लक्ष केंद्रित करते. अनअटॅच्ड व्हॉल्युम्स (unattached volumes) आणि न वापरलेले IPs तयार करण्यासाठी आम्ही Terraform वापरतो. एजंट चुका करतो का हे पाहण्यासाठी आम्ही सक्रिय रिसोर्सेस देखील जोडतो.

Waste discovery ही पहिली चाचणी आहे कारण यामुळे पैसे वाचतात आणि त्याचे स्कोअर स्पष्ट असतात. भविष्यातील चाचण्यांमध्ये सुरक्षा ऑडिट (security audits) आणि आर्किटेक्चर रिकन्स्ट्रक्शन (architecture reconstruction) यांचा समावेश असेल.

आम्ही रॉ लॉग्स (raw logs) आणि प्रॉम्प्ट्ससह (prompts) आमची संपूर्ण प्रक्रिया प्रकाशित करू. निकाल खराब असले तरीही आम्ही ते शेअर करू.

आम्हाला तुमच्या अभिप्रायाची (feedback) गरज आहे.

ही पद्धत कुठे कमकुवत आहे? एखादी चाचणी वास्तविक अकाउंटसारखी वाटण्यासाठी काय आवश्यक आहे? आम्ही पुढची कोणती चाचणी घेतली पाहिजे?

Source: https://dev.to/rachcorp/new-benchmark-for-cloud-tasks-4o1

Optional learning community: https://t.me/GyaanSetuAi

क्लाउड टास्कसाठी नवीन बेंचमार्क

क्लाउड टास्कसाठी नवीन बेंचमार्क

आमची कार्यपद्धती

Continue reading

New AA Briefcase Benchmark Reveals AI’s Struggle With Real Knowledge Work

AI एजंट सुरक्षा आणि संदर्भातील त्रुटी दूर करण्यासाठी AWS ने नवीन सेवा लाँच केल्या

वेब डेटा इन्फ्रास्ट्रक्चरचा उदय: AI च्या ज्ञानातील अडथळ्यांचे निराकरण

मानक AI बेंचमार्क पद्धतशीरपणे एजंटची क्षमता कमी का लेखतात?