New Benchmark สำหรับงานด้านคลาวด์
ประสิทธิภาพของ AI นั้นไม่สม่ำเสมอ โมเดลบางตัวอาจทำคะแนนได้สูงสุดใน Benchmark ด้านการเขียนโค้ด แต่กลับล้มเหลวในงานด้านคลาวด์ และบ่อยครั้งที่มันมักจะสร้างทรัพยากรที่ไม่มีอยู่จริงขึ้นมา
Benchmark ในปัจจุบันครอบคลุมเพียงด้านการเขียนโค้ดและการใช้เหตุผล แต่ยังไม่มี Benchmark ใดที่ใช้สำหรับงานด้านการจัดการคลาวด์โดยเฉพาะ
เรากำลังสร้าง Benchmark นั้นขึ้นมา
เราทดสอบเครื่องมืออย่าง Codex และ Claude Code โดยการทดสอบครั้งแรกของเราจะรันบน AWS และเราจะใช้เทมเพลตที่สามารถนำไปใช้กับ Azure และ GCP ได้ในภายหลัง
Our Methodology
เราใช้ Infrastructure as Code (IaC) เป็นเฉลย โดยให้ Terraform เป็นตัวสร้างทรัพยากร ซึ่งผลลัพธ์ที่ได้จะเป็นตัวบ่งชี้ความถูกต้องที่แท้จริง เราจะทราบ ID ของทรัพยากรที่ควรจะมีอยู่จริงอย่างแม่นยำ วิธีนี้ช่วยขจัดความผิดพลาดที่เกิดจากมนุษย์ และใครก็ตามก็สามารถรัน Stack เดียวกันเพื่อให้ได้ผลลัพธ์แบบเดียวกันได้
เราทดสอบสองตัวแปร:
• ขนาด (Size): บัญชีขนาดเล็ก, ขนาดกลาง และขนาดใหญ่ที่มีความเชื่อมโยง (dependencies) นับพันรายการ • ประวัติการใช้งาน (History): บัญชีใหม่ที่ใช้ IaC แบบบริสุทธิ์ และบัญชีเก่าที่มีการติดแท็กที่ยุ่งเหยิงและการเปลี่ยนแปลงด้วยตนเอง (manual changes)
เครื่องมือที่ทำงานได้ดีเฉพาะกับบัญชีขนาดเล็กและสะอาดเท่านั้น จะล้มเหลวเมื่อนำไปใช้ในสภาพแวดล้อมการทำงานจริง (production environments)
เราจำกัดขอบเขตของ Agent ไว้ โดยให้รันใน Container เดียวด้วยสิทธิ์การเข้าถึงแบบอ่านอย่างเดียว (read-only credentials) เราใช้ CloudTrail เพื่อติดตามทุกการกระทำ และเราจะทำการทดสอบซ้ำทุกครั้งสามรอบเพื่อตัดปัญหาเรื่องความผิดพลาดจากเครือข่ายออกไป
เราจำแนกคำตอบที่ผิดพลาดทุกรูปแบบดังนี้:
- พบ (Found): Agent มองเห็นทรัพยากรนั้น
- พลาด (Missed): Agent มองไม่เห็นทรัพยากรนั้น
- ระบุผิด (Flagged): Agent รายงานทรัพยากรที่กำลังใช้งานอยู่จริง
- สร้างขึ้นเอง (Fabricated): Agent สร้าง Resource ID ที่ไม่มีอยู่จริงขึ้นมา
งานแรกของเรามุ่งเน้นไปที่การค้นหาทรัพยากรที่สิ้นเปลือง (waste discovery) บน AWS เราใช้ Terraform ในการสร้าง unattached volumes และ IP ที่ไม่ได้ใช้งานทิ้งไว้ นอกจากนี้เรายังเพิ่มทรัพยากรที่กำลังใช้งานอยู่ (active resources) เข้าไปด้วย เพื่อดูว่า Agent จะทำผิดพลาดหรือไม่
การค้นหาทรัพยากรที่สิ้นเปลืองเป็นบททดสอบแรกเพราะช่วยประหยัดค่าใช้จ่ายและมีคะแนนที่วัดผลได้ชัดเจน ส่วนการทดสอบในอนาคตจะครอบคลุมถึงการตรวจสอบความปลอดภัย (security audits) และการสร้างโครงสร้างสถาปัตยกรรมใหม่ (architecture reconstruction)
เราจะเผยแพร่กระบวนการทั้งหมดของเรา รวมถึง Log ดิบและ Prompt ต่างๆ เราจะแบ่งปันผลลัพธ์แม้ว่าผลที่ได้จะออกมาไม่ดีก็ตาม
เราต้องการความคิดเห็นจากคุณ
วิธีการนี้มีจุดอ่อนตรงไหน? อะไรที่จะทำให้การทดสอบรู้สึกเหมือนเป็นบัญชีใช้งานจริง? และเราควรทดสอบงานด้านไหนเป็นลำดับถัดไป?
Source: https://dev.to/rachcorp/new-benchmark-for-cloud-tasks-4o1
Optional learning community: https://t.me/GyaanSetuAi
