क्लाउड टास्कसाठी नवीन बेंचमार्क
AI ची कामगिरी असमान आहे. एखादे मॉडेल कोडिंग बेंचमार्कमध्ये अव्वल असू शकते परंतु क्लाउड कामात अपयशी ठरू शकते. ते अनेकदा अस्तित्वात नसलेले रिसोर्सेस (resources) तयार करते.
सध्याचे बेंचमार्क कोडिंग आणि तर्कशक्ती (reasoning) कव्हर करतात. क्लाउड मॅनेजमेंट टास्कसाठी कोणताही बेंचमार्क अस्तित्वात नाही.
आम्ही तो बेंचमार्क तयार करत आहोत.
आम्ही Codex आणि Claude Code सारख्या टूल्सची चाचणी घेतो. आमची पहिली चाचणी AWS वर चालते. आम्ही असा टेम्पलेट वापरतो जो नंतर Azure आणि GCP साठी देखील उपयुक्त ठरेल.
आमची कार्यपद्धती
आम्ही 'Infrastructure as Code' (IaC) चा वापर उत्तरपत्रिका (answer key) म्हणून करतो. Terraform रिसोर्सेस तयार करते. त्याचे आउटपुट सत्य माहिती प्रदान करते. कोणते रिसोर्स आयडी (resource IDs) अस्तित्वात असावेत हे आम्हाला अचूकपणे माहित असते. यामुळे मानवी चुका टाळता येतात. कोणीही समान निकाल मिळवण्यासाठी तोच स्टॅक (stack) चालवू शकतो.
आम्ही दोन व्हेरिएबल्सची (variables) चाचणी घेतो:
• आकार (Size): लहान अकाउंट्स, मध्यम अकाउंट्स आणि हजारो डिपेंडन्सीज (dependencies) असलेले मोठे अकाउंट्स. • इतिहास (History): शुद्ध IaC असलेले नवीन अकाउंट्स आणि विस्कळीत टॅग्स (tags) व मॅन्युअल बदल असलेले जुने अकाउंट्स.
जे टूल फक्त लहान आणि स्वच्छ अकाउंट्सवर काम करते, ते वास्तविक प्रोडक्शन एन्व्हायरनमेंटमध्ये (production environments) अपयशी ठरते.
आम्ही एजंटला मर्यादित ठेवतो. तो 'read-only' क्रेडेंशियल्ससह एका सिंगल कंटेनरमध्ये चालतो. प्रत्येक कृतीचा मागोवा घेण्यासाठी आम्ही CloudTrail वापरतो. नेटवर्क एरर्स टाळण्यासाठी आम्ही प्रत्येक चाचणी तीन वेळा घेतो.
आम्ही प्रत्येक चुकीच्या उत्तराचे वर्गीकरण करतो:
- Found: एजंटने रिसोर्स पाहिला.
- Missed: एजंट तो पाहण्यास अपयशी ठरला.
- Flagged: एजंटने अशा रिसोर्सचा अहवाल दिला जो प्रत्यक्षात वापरात आहे.
- Fabricated: एजंटने अस्तित्वात नसलेला रिसोर्स आयडी तयार केला.
आमचे पहिले कार्य AWS waste discovery वर लक्ष केंद्रित करते. अनअटॅच्ड व्हॉल्युम्स (unattached volumes) आणि न वापरलेले IPs तयार करण्यासाठी आम्ही Terraform वापरतो. एजंट चुका करतो का हे पाहण्यासाठी आम्ही सक्रिय रिसोर्सेस देखील जोडतो.
Waste discovery ही पहिली चाचणी आहे कारण यामुळे पैसे वाचतात आणि त्याचे स्कोअर स्पष्ट असतात. भविष्यातील चाचण्यांमध्ये सुरक्षा ऑडिट (security audits) आणि आर्किटेक्चर रिकन्स्ट्रक्शन (architecture reconstruction) यांचा समावेश असेल.
आम्ही रॉ लॉग्स (raw logs) आणि प्रॉम्प्ट्ससह (prompts) आमची संपूर्ण प्रक्रिया प्रकाशित करू. निकाल खराब असले तरीही आम्ही ते शेअर करू.
आम्हाला तुमच्या अभिप्रायाची (feedback) गरज आहे.
ही पद्धत कुठे कमकुवत आहे? एखादी चाचणी वास्तविक अकाउंटसारखी वाटण्यासाठी काय आवश्यक आहे? आम्ही पुढची कोणती चाचणी घेतली पाहिजे?
Source: https://dev.to/rachcorp/new-benchmark-for-cloud-tasks-4o1
Optional learning community: https://t.me/GyaanSetuAi
