Anthropic, 미국 정부의 금지 조치 이후 Fable 5에 대한 글로벌 액세스 복구
Anthropic은 미국 정부의 명령에 따른 2주간의 중단 조치 이후, 자사의 가장 강력한 AI 모델인 Fable 5의 전 세계 출시를 공식적으로 재개했습니다. 이번 금지 조치는 모델이 설정된 안전 가드레일을 우회할 수 있게 하는 탈옥(jailbreak) 취약점과 관련된 중대한 보안 결함이 발견됨에 따라 내려졌습니다.
취약점: 방어적 연구에서 보안 리스크로
이번 갑작스러운 제한은 Fable 5의 안전 프로토콜을 성공적으로 우회한 Amazon 연구원들의 보안 보고서에서 비롯되었습니다. 연구원들은 이 모델이 특정 소프트웨어 취약점을 식별할 수 있으며, 한 주목할 만한 사례에서는 이를 악용하기 위한 실행 가능한 코드를 생성할 수 있다는 사실을 발견했습니다.
Anthropic은 이를 일상적인 방어적 사이버 보안 작업과 관련된 "에지 케이스(edge case)"라고 규정했지만, 오용 가능성으로 인해 회사와 미국 정부 기관 간의 공동 조사가 필요했습니다. 흥미롭게도 조사 결과, 이러한 결함을 식별하는 능력은 Fable 5만의 고유한 특성이 아니었습니다. Claude Opus 4.8, GPT-5.5, Kimi K2.7을 포함한 다른 모델들도 유사한 능력을 보였습니다. Claude Haiku 4.5와 같은 더 작은 모델조차 테스트 과정에서 동일한 악용 결과를 생성했습니다.
새로운 안전 분류기 도입 및 "오탐(False Positive)"의 트레이드오프
문제를 해결하기 위해 Anthropic은 Amazon 보고서에서 확인된 특정 악용 기술을 99% 이상의 정확도로 차단하도록 설계된 개선된 안전 분류기를 배치했습니다. 사용자의 요청이 이 새로운 방어 계층을 트리거하면 알림이 전송되며, 해당 쿼리는 자동으로 이전의 더 제한적인 모델인 Claude Opus 4.8로 재라우팅됩니다.
하지만 이러한 보안 강화에는 기능적 비용이 따릅니다. Anthropic은 새로운 분류기가 표준 코딩 및 디버깅 작업 중에 무해한 요청을 더 빈번하게 차단(flag)하는 경향이 있다고 인정했습니다. 이러한 "안전 마진(safety margin)"은 견고함과 사용성 사이의 긴장을 유발합니다. 이는 위험한 출력을 방지하려는 노력이 정당한 개발자의 질의에 대한 "거부(refusals)" 증가로 이어지는 경우가 많은 프런티어 모델 배포 과정에서의 반복적인 과제입니다.
산업 표준 및 정부 감독을 위한 추진력
Fable 5 사건은 공식화된 산업 전반의 안전 표준을 구축하려는 Anthropic의 노력을 가속화했습니다. 회사는 현재 "Glasswing" 프로그램을 통해 Amazon, Microsoft, Google과 협력하여 탈옥 등급을 매기고 표준화된 대응책을 트리거하기 위한 프레임워크를 구축하고 있습니다. 이를 강화하기 위해 Anthropic은 24시간 상시 모니터링 팀을 출범시켰으며, 보안 연구원들이 사이버 관련 탈옥을 보고하도록 장려하기 위한 새로운 HackerOne 프로그램을 시작했습니다.
또한, Anthropic은 모든 프런티어 모델 개발자에게 동일하게 적용되는 "강력한 규제"를 옹호하고 있습니다. 정부 파트너에게 보안 민감 모델에 대한 출시 전 액세스 권한을 제공하고 공동 연구를 위해 상당한 컴퓨팅 자원을 투입함으로써, Anthropic은 투명하고 정부와 조화를 이루는 AI 감독을 향한 움직임의 리더로 자리매김하고 있습니다.
핵심 요약
- 액세스 복구: Fable 5는 Claude.ai, Claude Code, Claude Cowork를 통해 다시 이용할 수 있으며, Pro, Max, Team 플랜 사용자는 7월 7일까지 액세스 권한을 받습니다.
- 새로운 방어 계층: Anthropic은 확인된 악용 기술의 99%를 차단하는 안전 분류기를 구현했으나, 코딩 워크플로에서 오탐(false positives)이 증가할 수 있습니다.
- 협력적 보안: Anthropic은 주요 기술 기업 및 미국 정부와 파트너십을 맺고 프런티어 모델의 탈옥을 모니터링하고 대응하기 위한 공동 산업 표준을 수립하고 있습니다.
