OpenAI, Claude Mythos에 맞서기 위해 GPT-5.6 Sol 출시
OpenAI가 에이전트 기반 코딩(agentic coding) 및 사이버 보안 분야를 장악하기 위해 설계된 정교한 차세대 모델인 GPT-5.6 Sol을 공식 발표했습니다. 이번 출시는 추론 능력 면에서 비약적인 발전을 의미하지만, 미국 정부의 제한적인 접근 프로토콜을 둘러싼 논란이 고조되는 가운데 이루어졌습니다.
성능과 규모를 위한 새로운 계층형 아키텍처
단일 모델 출시 방식에서 벗어나, OpenAI는 다양한 기업의 요구 사항에 맞춘 계층형 명명 체계를 도입했습니다. 이 아키텍처는 "Sol", "Terra", "Luna"를 영구적인 성능 계층으로 활용하여, 개발자가 예산과 복잡성에 따라 규모를 조정할 수 있도록 합니다.
계층 구조의 최상위에는 플래그십 모델인 Sol이 있습니다. 그 아래에는 GPT-5.5와 대등한 성능을 약 절반의 비용으로 제공하는 Terra와 가성비 중심의 Luna 계층이 자리 잡고 있습니다. 고강도 워크로드를 위해 OpenAI는 심층 추론을 위한 "max" 모드와, 병렬로 실행되는 서브 에이전트(sub-agents)를 활용해 다면적이고 복잡한 작업을 처리하는 "ultra" 모드를 도입했습니다.
코딩 및 생물학 분야의 새로운 벤치마크 수립
GPT-5.6 Sol의 주요 목표는 Anthropic의 Claude Mythos 클래스를 앞지르는 것입니다. 에이전트 기반 코딩 작업에서 수치는 OpenAI의 주장을 뒷받침합니다. Terminal-Bench 2.1 벤치마크에서 Sol Ultra는 무려 91.9%를 달성하며, Claude Mythos 5(88.0%)와 Google의 Gemini 3.1 Pro Preview(70.7%)를 넘어섰습니다.
이 모델은 특수 과학 분야에서도 상당한 돌파구를 보여주었습니다. GeneBench v1 유전체학 벤치마크에서 Sol은 30%를 기록했는데, 이는 GPT-5.5가 달성한 22%보다 크게 향상된 수치이며, 특히 더 적은 토큰을 소비했다는 점이 주목할 만합니다. 이러한 효율성은 OpenAI가 단순히 "더 큰" 연산이 아닌 "더 스마트한" 연산에 집중하고 있음을 시사합니다.
사이버 보안: 방어자 vs 공격자
사이버 보안 영역에서 Sol은 최고의 방어 도구가 되는 것을 목표로 합니다. Google V8 JavaScript 엔진의 취약점을 찾아내고 악용하는 능력을 테스트하는 ExploitBench에서, Sol은 Anthropic의 Mythos Preview와 대등한 성능을 보이면서도 결정적인 이점을 가집니다. 바로 출력 토큰을 약 3분의 1만 사용한다는 점입니다.
OpenAI는 Sol을 자율적인 공격자가 아닌 방어자로 포지셔닝하고 있습니다. Chromium 및 Firefox를 대상으로 한 테스트에서, 이 모델은 버그와 익스플로잇 프리미티브(exploitation primitives)를 성공적으로 식별했지만, 자율적인 풀 체인 익스플로잇(full-chain exploit)을 생성하는 단계까지는 나아가지 않았습니다. OpenAI는 Sol이 자체 내부 Preparedness Framework 내의 "Cyber Critical" 임계값 미만으로 유지되고 있다고 주장합니다.
정부 통제 접근 권한에 관한 논란
GPT-5.6 Sol의 출시는 마찰 없이 순탄하게 진행되지 않고 있습니다. 현재 접근 권한은 미국 정부의 명령에 따라 API 및 Codex를 통한 소수의 선정된 파트너에게만 제한되어 있습니다. 이는 정부가 이전에 Anthropic의 Fable 5를 시장에서 퇴출하기로 결정한 데 따른 조치입니다.
OpenAI는 이러한 제한에 강력히 반대하며, 현재의 정부 접근 프로세스를 "지속 불가능하다"고 규정했습니다. 회사는 이러한 제한이 개발자, 기업 및 사이버 방어자들이 글로벌 디지털 인프라를 보호하는 데 필요한 바로 그 도구에 접근하는 것을 가로막고 있다고 주장합니다.
핵심 요약
- 계층형 모델 전략: OpenAI는 Sol(플래그십), Terra(중간 계층), Luna(보급형)로 구성된 새로운 계층 구조와 함께, 병렬 서브 에이전트 작업 실행을 위한 "Ultra" 모드를 도입했습니다.
- 벤치마크 압도: GPT-5.6 Sol Ultra는 Terminal-Bench 2.1에서 91.9%를 기록하며 에이전트 기반 코딩 분야에서 업계를 선도하고 있으며, Claude Mythos와 Gemini를 크게 앞질렀습니다.
- 효율성 우선 접근 방식: Sol은 훨씬 적은 토큰을 사용하면서도 경쟁력 있는 사이버 보안 및 유전체학 결과를 달성하여, 개발자의 작업당 실질 비용을 낮출 가능성을 보여줍니다.
