새로운 MirrorCode 벤치마크에서 AI 모델이 19일 동안 쉬지 않고 작동하다
자율 소프트웨어 엔지니어링의 지형이 단순한 코드 스니펫에서 거대한 다일(multi-day) 프로그래밍 마라톤으로 변화하고 있습니다. Epoch AI와 METR이 발표한 MirrorCode라는 새로운 벤치마크에 따르면, AI 모델은 이제 과거에 인간의 노동력이 수 주간 필요했던 복잡한 재구현(reimplementation) 작업을 수행할 수 있는 수준에 도달했습니다.
MirrorCode를 통한 AI의 한계 도전
MirrorCode는 작업당 추론 비용을 단돈 1~10달러로 제한하던 기존의 소프트웨어 엔지니어링 벤치마크에서 크게 벗어난 방식입니다. 대신, 이 벤치마크는 AI 모델이 원본 소스 코드에 접근할 수 없는 상태에서 Unix 유틸리티, 암호학부터 생물정보학(bioinformatics), 데이터 직렬화(data serialization)에 이르기까지 완전하고 복잡한 프로그램을 처음부터 다시 구현하도록 요구합니다. 진정한 기능적 동등성을 보장하기 위해, AI가 생성한 모든 솔루션은 개발 단계에서 모델이 전혀 접하지 못한 숨겨진 엔드투엔드(end-to-end) 테스트를 통과해야 합니다.
이러한 작업의 규모는 전례가 없는 수준입니다. 벤치마크의 특정 작업 하나는 AI 모델이 인간의 개입 없이 19일 동안 연속적으로 작동해야 했으며, 단 한 번의 실행에 2,600달러의 추론 비용이 발생했습니다.
Claude Opus 4.7, 선두를 달리다
벤치마크 결과는 현재 최첨단(frontier) 모델들 사이의 명확한 계층 구조를 보여줍니다. Claude Opus 4.7은 56%의 해결률을 기록하며 선두로 올라섰으며, 44%를 기록한 GPT-5.5와 32%를 기록한 Gemini 3.1 Pro Preview를 크게 앞질렀습니다.
눈에 띄는 성공 사례는 생물정보학 툴킷인 gotree였습니다. 이 프로그램은 약 16,000줄의 Go 코드로 구성되어 있으며 40개 이상의 고유한 명령어를 포함하고 있습니다. 인간 엔지니어가 이러한 작업을 완료하는 데 보통 2주에서 17주가 소요되는 반면, Claude Opus 4.7은 단 14시간 만에 251달러의 비용으로 성공적으로 재구현했습니다. 모델이 100% 완벽한 재구현에 실패하는 경우에도, 기능 테스트의 90% 이상을 놀라운 수준으로 통과했습니다.
복잡성 격차와 암기 위험성
이러한 도약에도 불구하고, MirrorCode 결과는 뚜렷한 "복잡성 천장(complexity ceiling)"을 드러냅니다. 테스트된 모든 모델이 uuid나 parseqsv와 같은 작은 프로그램은 안정적으로 처리하지만, 현재 어떤 모델도 "대규모(large)" 카테고리의 작업을 완전히 해결할 수 있는 능력은 갖추지 못했습니다. AI 코딩의 최전선은 여전히 가장 거대하고 상호 연결된 소프트웨어 아키텍처를 마주했을 때 어려움을 겪고 있습니다.
Epoch AI는 LLM 평가의 핵심 우려 사항인 데이터 오염(data contamination) 문제도 다루었습니다. 벤치마크가 오픈 소스 프로그램을 활용하기 때문에, 모델이 학습 단계에서 이미 원본 코드를 암기했을 위험이 있습니다. 초기 조사 결과에 따르면 성능이 순수하게 암기에 의해서만 결정되는 것은 아니지만, 연구진은 현재의 해결률에 암기가 기여했을 가능성을 완전히 배제할 수는 없다고 인정했습니다.
이것이 AI 산업에 중요한 이유
MirrorCode는 "코파일럿(Copilot)으로서의 AI"에서 "자율 에이전트(Autonomous Agent)로서의 AI"로의 전환을 예고합니다. 모델이 19일 동안 추론을 지속하고 수천 줄의 코드를 처리할 수 있음을 증명함으로써, 업계는 전체 소프트웨어 수명 주기를 관리할 수 있는 에이전트에 한 걸음 더 다가서고 있습니다. GPT-5.5의 비용이 이전 모델보다 3배 더 비싸진 반면 Claude Opus 4.7은 3배 더 효율적이 되는 등 추론 비용이 요동치는 가운데, 자율 엔지니어링의 경제적 타당성이 차세대 거대한 개척지가 될 것입니다.
핵심 요약
- 새로운 추론 규모: MirrorCode는 단일 작업에 최대 2,600달러의 비용이 들고 19일 동안 실행되는 막대한 추론 예산을 허용함으로써 AI의 한계를 밀어붙입니다.
- Claude의 성능 주도: Claude Opus 4.7은 현재 56%의 해결률로 벤치마크 선두를 달리고 있으며, 대규모 Go 코드베이스를 재구현하는 데 있어 탁월한 능력을 보여주고 있습니다.
- 복잡성 장벽 잔존: 소규모 작업은 안정적으로 해결되고 있지만, 아직 어떤 기존 모델도 가장 복잡하고 대규모인 프로그래밍 작업을 완전히 해결하지는 못하고 있습니다.
