왜 표준 AI 벤치마크는 에이전트의 역량을 체계적으로 과소평가하는가

현재의 AI 평가 방식은 프런티어 모델의 진정한 잠재력을 포착하지 못하고 있으며, 종종 연산 예산의 부족을 지능의 부족으로 오해하곤 합니다. 영국 AI 보안 연구소(AISI)는 AI 에이전트의 성능이 고정된 점수가 아니라, 테스트 시간 연산(test-time compute)이 증가함에 따라 급격히 상승하는 스케일링 곡선이라는 사실을 밝혀냈습니다.

연산-역량 곡선 (The Compute-Capability Curve)

AISI 연구의 핵심 결과는 AI 에이전트의 성공률이 "테스트 시간 연산(test-time compute)"—즉, 에이전트가 작업을 수행하는 동안 사용할 수 있는 처리 능력과 토큰의 양—과 불가분하게 연결되어 있다는 것입니다. 연구자들이 평가 시 고정된 예산 한도를 적용할 경우, 모델의 최대 잠재력이 아닌 최소 역량을 측정하게 됩니다.

이러한 현상은 여러 고위험 도메인에서 관찰됩니다. TerminalBench 2.0 및 SWE-Bench Pro와 같은 벤치마크를 사용한 소프트웨어 엔지니어링 작업에서, 토큰