เกณฑ์มาตรฐานใหม่สำหรับงานบนคลาวด์

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial20 ชั่วโมงที่ผ่านมา2min read

New Benchmark สำหรับงานด้านคลาวด์

ประสิทธิภาพของ AI นั้นไม่สม่ำเสมอ โมเดลบางตัวอาจทำคะแนนได้สูงสุดใน Benchmark ด้านการเขียนโค้ด แต่กลับล้มเหลวในงานด้านคลาวด์ และบ่อยครั้งที่มันมักจะสร้างทรัพยากรที่ไม่มีอยู่จริงขึ้นมา

Benchmark ในปัจจุบันครอบคลุมเพียงด้านการเขียนโค้ดและการใช้เหตุผล แต่ยังไม่มี Benchmark ใดที่ใช้สำหรับงานด้านการจัดการคลาวด์โดยเฉพาะ

เรากำลังสร้าง Benchmark นั้นขึ้นมา

เราทดสอบเครื่องมืออย่าง Codex และ Claude Code โดยการทดสอบครั้งแรกของเราจะรันบน AWS และเราจะใช้เทมเพลตที่สามารถนำไปใช้กับ Azure และ GCP ได้ในภายหลัง

Our Methodology

เราใช้ Infrastructure as Code (IaC) เป็นเฉลย โดยให้ Terraform เป็นตัวสร้างทรัพยากร ซึ่งผลลัพธ์ที่ได้จะเป็นตัวบ่งชี้ความถูกต้องที่แท้จริง เราจะทราบ ID ของทรัพยากรที่ควรจะมีอยู่จริงอย่างแม่นยำ วิธีนี้ช่วยขจัดความผิดพลาดที่เกิดจากมนุษย์ และใครก็ตามก็สามารถรัน Stack เดียวกันเพื่อให้ได้ผลลัพธ์แบบเดียวกันได้

เราทดสอบสองตัวแปร:

• ขนาด (Size): บัญชีขนาดเล็ก, ขนาดกลาง และขนาดใหญ่ที่มีความเชื่อมโยง (dependencies) นับพันรายการ • ประวัติการใช้งาน (History): บัญชีใหม่ที่ใช้ IaC แบบบริสุทธิ์ และบัญชีเก่าที่มีการติดแท็กที่ยุ่งเหยิงและการเปลี่ยนแปลงด้วยตนเอง (manual changes)

เครื่องมือที่ทำงานได้ดีเฉพาะกับบัญชีขนาดเล็กและสะอาดเท่านั้น จะล้มเหลวเมื่อนำไปใช้ในสภาพแวดล้อมการทำงานจริง (production environments)

เราจำกัดขอบเขตของ Agent ไว้ โดยให้รันใน Container เดียวด้วยสิทธิ์การเข้าถึงแบบอ่านอย่างเดียว (read-only credentials) เราใช้ CloudTrail เพื่อติดตามทุกการกระทำ และเราจะทำการทดสอบซ้ำทุกครั้งสามรอบเพื่อตัดปัญหาเรื่องความผิดพลาดจากเครือข่ายออกไป

เราจำแนกคำตอบที่ผิดพลาดทุกรูปแบบดังนี้:

พบ (Found): Agent มองเห็นทรัพยากรนั้น
พลาด (Missed): Agent มองไม่เห็นทรัพยากรนั้น
ระบุผิด (Flagged): Agent รายงานทรัพยากรที่กำลังใช้งานอยู่จริง
สร้างขึ้นเอง (Fabricated): Agent สร้าง Resource ID ที่ไม่มีอยู่จริงขึ้นมา

งานแรกของเรามุ่งเน้นไปที่การค้นหาทรัพยากรที่สิ้นเปลือง (waste discovery) บน AWS เราใช้ Terraform ในการสร้าง unattached volumes และ IP ที่ไม่ได้ใช้งานทิ้งไว้ นอกจากนี้เรายังเพิ่มทรัพยากรที่กำลังใช้งานอยู่ (active resources) เข้าไปด้วย เพื่อดูว่า Agent จะทำผิดพลาดหรือไม่

การค้นหาทรัพยากรที่สิ้นเปลืองเป็นบททดสอบแรกเพราะช่วยประหยัดค่าใช้จ่ายและมีคะแนนที่วัดผลได้ชัดเจน ส่วนการทดสอบในอนาคตจะครอบคลุมถึงการตรวจสอบความปลอดภัย (security audits) และการสร้างโครงสร้างสถาปัตยกรรมใหม่ (architecture reconstruction)

เราจะเผยแพร่กระบวนการทั้งหมดของเรา รวมถึง Log ดิบและ Prompt ต่างๆ เราจะแบ่งปันผลลัพธ์แม้ว่าผลที่ได้จะออกมาไม่ดีก็ตาม

เราต้องการความคิดเห็นจากคุณ

วิธีการนี้มีจุดอ่อนตรงไหน? อะไรที่จะทำให้การทดสอบรู้สึกเหมือนเป็นบัญชีใช้งานจริง? และเราควรทดสอบงานด้านไหนเป็นลำดับถัดไป?

Source: https://dev.to/rachcorp/new-benchmark-for-cloud-tasks-4o1

Optional learning community: https://t.me/GyaanSetuAi

เกณฑ์มาตรฐานใหม่สำหรับงานบนคลาวด์

Continue reading

เกณฑ์มาตรฐาน AA Briefcase ใหม่เผยให้เห็นถึงความยากลำบากของ AI ในการทำงานด้านความรู้ที่แท้จริง

AWS เปิดตัวบริการใหม่เพื่อแก้ปัญหาด้านความปลอดภัยและช่องว่างด้านบริบทของ AI Agent

การเติบโตของโครงสร้างพื้นฐานข้อมูลเว็บ: การแก้ปัญหาคอขวดด้านความรู้ของ AI

ทำไมเกณฑ์มาตรฐาน AI แบบเดิมถึงประเมินความสามารถของเอเจนต์ต่ำกว่าความเป็นจริงอย่างเป็นระบบ