New Benchmark for Cloud Tasks
AI 성능은 불균형합니다. 어떤 모델은 코딩 벤치마크에서는 최고를 기록하지만, 클라우드 작업에서는 실패할 수 있습니다. 또한 존재하지 않는 리소스를 만들어내기도 합니다.
현재의 벤치마크는 코딩과 추론을 다룹니다. 클라우드 관리 작업을 위한 벤치마크는 존재하지 않습니다.
저희가 그 벤치마크를 구축하고 있습니다.
Codex 및 Claude Code와 같은 도구들을 테스트합니다. 첫 번째 테스트는 AWS에서 실행됩니다. 이후 Azure 및 GCP에서도 작동할 수 있는 템플릿을 사용할 예정입니다.
Our Methodology
저희는 Infrastructure as Code (IaC)를 정답지로 사용합니다. Terraform이 리소스를 구축하며, 그 결과값이 진실(truth)을 제공합니다. 우리는 존재해야 하는 정확한 리소스 ID를 알고 있습니다. 이를 통해 인적 오류를 제거합니다. 누구나 동일한 스택을 실행하여 동일한 결과를 얻을 수 있습니다.
저희는 두 가지 변수를 테스트합니다:
• Size: 소규모 계정, 중규모 계정, 그리고 수천 개의 종속성을 가진 대규모 계정. • History: 순수 IaC로 구성된 신규 계정과 지저분한 태그 및 수동 변경 사항이 있는 기존 계정.
소규모의 깨끗한 계정에서만 작동하는 도구는 실제 운영 환경에서 실패합니다.
에이전트를 격리된 상태로 유지합니다. 에이전트는 읽기 전용 권한을 가진 단일 컨테이너에서 실행됩니다. 모든 작업은 CloudTrail을 통해 추적합니다. 네트워크 오류를 배제하기 위해 모든 테스트를 세 번씩 반복합니다.
모든 오답을 다음과 같이 분류합니다:
- Found: 에이전트가 리소스를 확인했습니다.
- Missed: 에이전트가 리소스를 확인하지 못했습니다.
- Flagged: 에이전트가 실제로 사용 중인 리소스를 보고했습니다.
- Fabricated: 에이전트가 존재하지 않는 리소스 ID를 만들어냈습니다.
첫 번째 작업은 AWS 리소스 낭비 탐지(waste discovery)에 집중합니다. Terraform을 사용하여 연결되지 않은 볼륨과 사용되지 않는 IP를 배치합니다. 또한 에이전트가 실수를 하는지 확인하기 위해 활성 리소스도 추가합니다.
리소스 낭비 탐지가 첫 번째 테스트인 이유는 비용을 절감할 수 있고 점수가 명확하기 때문입니다. 향후 테스트는 보안 감사 및 아키텍처 재구성까지 다룰 예정입니다.
원시 로그와 프롬프트를 포함한 전체 프로세스를 공개할 것입니다. 결과가 좋지 않더라도 공유하겠습니다.
여러분의 피드백이 필요합니다.
이 방법의 약점은 무엇인가요? 무엇이 테스트를 실제 계정처럼 느껴지게 만들까요? 다음에는 어떤 작업을 테스트해야 할까요?
Source: https://dev.to/rachcorp/new-benchmark-for-cloud-tasks-4o1
Optional learning community: https://t.me/GyaanSetuAi
