미국 정부 vs Anthropic: 해킹 불가능한 LLM이라는 불가능한 요구
Fable 5 모델 출시 이후 미국 정부와 Anthropic 사이에 갈등이 커지면서 AI 안전성과 규제 감독에 대한 논쟁이 촉발되었습니다. 당국자들이 이 AI 연구소가 행정 명령을 우회했다고 비난함에 따라, 더 깊은 기술적 긴장감이 표면화되고 있습니다. 바로 정부가 요구하는 '해킹 불가능한' 프런티어 모델에 대한 요구입니다.
Fable 5와 사이버 지침을 둘러싼 갈등
이러한 긴장은 최근 트럼프 행정부의 사이버 행정 명령에 의해 의무화된 지정 정부 심사 기구(clearinghouse)가 완전히 가동되기 전에 Anthropic이 최신 모델인 Fable 5를 출시하기로 결정하면서 시작되었습니다. 해당 명령은 자발적인 감독을 요구했지만, 정부 관계자들은 Anthropic이 지침의 취지를 무시했다고 주장하며 이 회사가 '악의적인 행위자(bad actor)'라는 비난을 불러일으켰습니다.
상무부, CIA, 그리고 과학 고문 마이클 크라시오스(Michael Kratsios)가 참여하고 있는 현재의 논의는 거대한 소통의 격차를 보여줍니다. 당국자들은 아마존 및 기타 기술 산업 파트너들이 제공한 것으로 알려진 '탈옥(jailbreak)' 위험에 대한 제보가 있었음에도 불구하고 Anthropic이 이를 강행했다는 점에 우려를 표명했습니다. 하지만 이러한 마찰은 기술적 보안만큼이나 규제 타이밍에 관한 문제인 것으로 보입니다.
기술적 현실: LLM은 과연 해킹이 불가능할 수 있는가?
잠재적인 탈옥 위험을 무시함으로써 Anthropic이 "잘못된 길을 택했다"는 정부 비판의 핵심은 거대 언어 모델(LLM) 아키텍처의 근본적인 현실을 간과하고 있습니다. AI 업계의 공통된 의견은 현재 절대적인 보안은 불가능하다는 것입니다. OpenAI조차 프롬프트 인젝션(prompt injection)과 같은 취약점이 결코 완전히 해결되지 않을 수 있음을 인정했습니다.
Anthropic의 CEO 다리오 아모데이(Dario Amodei)는 생물학이나 기술과 같은 민감한 분야에서의 탈옥은 "생사가 걸린 문제"가 될 수 있지만, 업계는 여전히 이러한 위험을 완화하는 방법을 고심하고 있다고 언급한 바 있습니다. 국제적 배포 전에 모델이 본질적으로 해킹 불가능해야 한다고 요구함으로써, 미국 정부는 혁신을 저해하는 선례를 남길 수 있습니다. GPT-5.5나 Kimi 2.7을 포함한 그 어떤 프런티어 모델도 완벽한 보안 방패를 갖추고 있지 않기 때문입니다.
업계의 반발과 수출 통제 논쟁
고조되는 긴장 상황에 대응하여, Alex Stamos 및 Rachel Tobac와 같은 업계 베테랑을 포함한 100명 이상의 사이버 보안 전문가와 경영진이 Lutnick 무역부 장관과 Cairncross 국가 사이버 안보 국장에게 공개 서한을 보냈습니다. 이들은 Anthropic의 Fable 및 Mythos 모델에 대한 수출 통제를 해제할 것을 촉구하고 있습니다.
전문가들은 Fable이 소프트웨어 결함을 식별하는 능력이 매우 뛰어나지만, Opus나 Sonnet과 같은 다른 모델과 비교했을 때 독보적으로 위험한 것은 아니라고 주장합니다. 결정적으로, 이들은 엄격한 수출 통제가 오히려 서구의 방어자들에게 불리하게 작용하고 있다고 경고합니다. 미국의 최상위 모델에 대한 접근을 제한함으로써, 정부가 의도치 않게 중국의 오픈 웨이트(open-weight) 모델에 이점을 제공할 수 있다는 것입니다. 보도에 따르면 중국의 모델들은 미국의 선도적인 프런티어 모델들과 불과 몇 달 차이밖에 나지 않는다고 합니다.
핵심 요약
- 규제 마찰: Anthropic은 정부의 자율 규제 심사 기구가 설립되기 전에 Fable 5를 출시한 것에 대해 비판을 받고 있습니다.
- 보안의 역설: "해킹 불가능한" AI를 요구하는 정부의 요구는 프롬프트 인젝션(prompt injection)과 탈옥(jailbreaking)이 현재 LLM 아키텍처의 내재적 위험이라는 기술적 현실과 충돌합니다.
- 지정학적 리스크: 업계 전문가들은 Fable과 같은 모델에 대한 공격적인 수출 통제가 중국 AI의 급격한 발전을 막지 못하는 동시에 미국의 사이버 방어력을 약화시킬 수 있다고 경고합니다.