단 3개의 AI 모델만이 500일간의 스타트업 시뮬레이션에서 살아남았다
현재의 AI 에이전트는 개별적인 작업에는 뛰어나지만, 비즈니스를 운영하는 데 필요한 복잡하고 장기적인 전략적 사고에는 어려움을 겪습니다. CEO-Bench라는 새로운 벤치마크에 따르면, 대부분의 대규모 언어 모델(LLM)은 500일의 시뮬레이션 기간 내에 파산하는 반면, 극소수의 모델만이 '조종 지능(steering intelligence)'의 징후를 보이기 시작했습니다.
CEO-Bench 소개: 전략적 지능의 궁극적 테스트
연구진은 단순한 프롬프트 테스트를 넘어, 에이전트가 조직 전체를 장기적 목표로 이끄는 능력을 측정하기 위해 설계된 엄격한 시뮬레이션인 CEO-Bench를 개발했습니다. 이 벤치마크에서 AI 에이전트는 100만 달러의 자본과 고객 0명으로 시작하는 가상의 구독형 소프트웨어 기업인 "NovaMind"를 운영하게 됩니다.
환경은 실제 세계의 변동성을 모방하도록 설계되었습니다. 에이전트는 34개의 도구와 19개의 테이블로 구성된 데이터베이스를 갖춘 Python API와 상호작용하며, 의사결정을 내리기 위해 직접 코드를 작성하거나 SQL 쿼리를 실행해야 합니다. 리스크는 매우 높습니다. 500일의 기간 중 어느 시점에서든 회사의 현금 잔고가 0 미만으로 떨어지면 시뮬레이션은 파산으로 종료됩니다.
복잡성은 지연된 피드백 루프에서 발생합니다. 작업 중심의 에이전트와 달리, CEO는 R&D 일정, 시장 주기, 변화하는 고객의 기대치를 모두 고려해야 합니다. 광고비 지출이나 가격 책정 단계와 같이 10일 차에 내린 결정은 몇 주가 지나서야 구독자 성장이나 현금 흐름에 가시적인 결과로 나타날 수 있습니다.
파산 위기: 대부분의 모델이 실패하는 이유
14개 모델을 대상으로 한 테스트 결과는 충격적이었습니다. 대부분의 모델이 기본적인 명령은 수행할 수 있었지만, 지급 능력을 유지하는 데 필요한 일관된 장기 전략이 부족했습니다. 대다수의 에이전트는 시장의 불확실성을 헤쳐 나가지 못하고 500일이 되기 전에 파산했습니다.
놀라운 비교 결과, 고정된 가격 책정과 기본적인 용량 조정을 사용하는 비(非) AI 프로그램인 단순 규칙 기반 휴리스틱(heuristic) 모델이 1,576만 달러에 도달했습니다. 이는 테스트된 거의 모든 LLM보다 뛰어난 성과로, 방향성 없는 '지능'은 종종 기본적이고 절제된 비즈니스 계획보다 열등하다는 것을 증명했습니다.
엘리트 3인방: Claude와 GPT의 선두 질주
단 세 개의 모델만이 초기 자본인 100만 달러보다 많은 금액을 남기며 시뮬레이션을 마쳤습니다. 이 모델들은 숨겨진 정보를 찾아내고 미래 현금 흐름을 예측하는 능력을 보여주었습니다.
- Claude Fable 5: 최고의 성과를 거둔 모델로, 무려 4,715만 달러에 도달했으며 여러 차례의 실행에서 가장 높은 일관성을 보여주었습니다.
- Claude Opus 4.8: 2,780만 달러를 달성했으며, 고객 코호트(cohort)를 모델링하기 위해 자체적인 내부 시뮬레이션을 구축하는 고도의 정교함을 보여주었습니다.
- GPT-5.5: 2,130만 달러에 도달했으며, 협상 이력을 분석하여 숨겨진 고객 선호도를 파악함으로써 성공을 거두었습니다.
흥미롭게도 모델들은 각기 다른 성공 경로를 사용했습니다. Opus 4.8이 공격적인 초기 고객 확보에 집중한 반면, GPT-5.5는 안정적인 고객 기반 유지에 우선순위를 두었습니다. 이와 대조적으로 Claude Opus 4.7과 같은 모델들은 상당한 수익을 창출하지 못한 채, 단지 파산을 피하기 위해 비용을 절감하는 '생존주의자'적 사고방식을 채택했습니다.
이것이 AI의 미래에 중요한 이유
최고 성과를 낸 에이전트($4,715만)와 시뮬레이션의 이론적 상한선($22억) 사이의 격차는 AI의 '조종 지능'이 아직 초기 단계에 있음을 시사합니다. 개발자와 창업자들에게 이 벤치마크는 AI의 다음 개척지가 단순히 더 나은 추론 능력이 아니라, 길고 불확실한 기간 동안 자원과 기대를 관리할 수 있는 능력인 '시간적 인식(temporal awareness)'임을 강조합니다.
핵심 요약
- 전략적 격차: 현재 대부분의 AI 모델은 장기적인 비즈니스 주기를 관리할 '조종 지능'이 부족하며, 대다수가 500일 생존 테스트를 통과하지 못했습니다.
- 최고 성과 모델: Claude Fable 5, Claude Opus 4.8, GPT-5.5만이 초기 자본인 100만 달러 이상으로 기업 자본을 성공적으로 증식시켰습니다.
- 휴리스틱 벤치마크: 단순한 비(非) AI 규칙 기반 알고리즘이 거의 모든 LLM보다 뛰어난 성과를 거두었으며, 이는 원시적인 연산 능력보다 전략적 일관성이 더 중요하다는 점을 강조합니다.
