AI는 러시아의 프로파간다에 맞설 수 있을까? 새로운 벤치마크가 밝혀낸 승자들

📅3 hours ago⏱3 min read

In this article

AI는 러시아 선전(Propaganda)에 저항할 수 있는가? 새로운 벤치마크가 밝힌 승자들

허위 정보 캠페인이 점점 더 정교해짐에 따라 중요한 질문이 떠오르고 있습니다. 대규모 언어 모델(LLM)이 사실과 국가 주도의 조작을 구분할 수 있을까요? 에스토니아 언어 연구소(Institute of the Estonian Language)의 최근 연구는 60개의 서로 다른 AI 모델을 대상으로 표적화된 러시아 선전에 대한 회복력을 테스트하여 이에 대한 엄격한 해답을 제시했습니다.

방법론: 웹 접속 없는 회복력 테스트

결과가 실시간 웹 브라우징 능력이 아닌 모델 고유의 추론 능력을 측정하도록 하기 위해, 연구진은 검색 엔진이나 외부 도구에 대한 접속 없이 테스트를 진행했습니다. 이 벤치마크는 3개 언어에 걸친 75개의 질문을 활용하여 14개의 뚜렷한 선전 내러티브를 구체적으로 겨냥했습니다. 이러한 내러티브는 중립적인 문구부터 매우 편향되고 조작적인 프롬프트에 이르기까지 다양한 난이도로 제시되었습니다.

평가 프로세스는 매우 체계적이었습니다. 각 응답은 1점에서 5점 척도로 점수가 매겨졌으며, 1점은 모델이 러시아의 논조에 굴복하여 이를 반복했음을 의미합니다. 높은 정확도를 유지하기 위해 보정된 Claude Opus 4.5가 심판 역할을 수행했으며, 결과는 Propastop 조직의 허위 정보 전문가들에 의해 추가로 검증되었습니다.

허위 정보 방어에서 선두를 달리는 Anthropic

결과는 서로 다른 AI 제공업체 간의 상당한 성능 격차를 보여줍니다. Anthropic의 Claude 제품군은 허위 정보 저항 분야에서 업계 리더로 부상했습니다. 구체적으로, Claude Fable 5(현재 미국 외 지역에서는 제한됨)는 95.2라는 압도적인 최고 점수를 기록했습니다. 그 뒤를 Claude Opus 4.7이 바짝 뒤쫓으며, 안전성과 사실적 무결성의 현재 골드 표준으로서 Anthropic의 입지를 공고히 했습니다.

다른 주목할 만한 성과를 낸 모델로는 Nvidia의 Nemotron 3와 Alibaba의 Qwen 3.6 Plus가 있었으며, 두 모델 모두 조작적인 내러티브를 식별하고 거부하는 강력한 능력을 보여주었습니다.

Mistral의 취약성과 유럽 AI의 위기

미국과 중국 모델들이 강세를 보인 반면, 프랑스의 AI 강자인 Mistral에게 이번 결과는 후퇴였습니다. 최근의 Medium 3.5를 포함한 Mistral의 모델들은 벤치마크 하위 3분의 1에 머물렀습니다. 이러한 결과는 Mistral에 대해 36.67%의 오정보율을 기록했던 이전 Newsguard의 연구 결과를 뒷받침합니다.

Mistral의 전략적 위치를 고려할 때 이 취약점은 특히 중요합니다. 미국 및 중국 기반 AI 제공업체에 대한 주요 유럽 대안으로서, 이 회사는 현재 200억 유로의 기업 가치를 바탕으로 30억 유로 규모의 펀딩 라운드를 협상 중입니다. 신뢰할 수 있는 주권 AI 제공업체로 자리매김하려는 기업에게, 선전을 지속적으로 차단하지 못한다는 점은 상당한 평판 및 기술적 과제를 안겨줍니다.

이것이 AI 생태계에 중요한 이유

이 벤치마크의 중요성은 단순한 정확도 점수 그 이상입니다. "Pravda"와 같은 러시아의 허위 정보 네트워크는 미래 모델의 논리를 "오염"시키기 위해 수백만 개의 조작된 기사를 AI 학습 데이터셋에 쏟아붓는 작업을 활발히 진행하고 있습니다. OpenAI가 이미 독일 연방 선거에 영향을 미치기 위해 ChatGPT를 이용한 러시아의 캠페인을 식별하고 차단한 만큼, LLM의 무결성을 지키기 위한 싸움은 글로벌 정보 보안의 최전선 이슈가 되고 있습니다.

핵심 요약

Anthropic의 우위: Claude 모델, 특히 Claude Fable 5는 테스트된 다른 모든 모델과 비교하여 선전에 대해 탁월한 저항력을 보여주었습니다.
압박을 받는 Mistral: 높은 기업 가치와 유럽 내 중요성에도 불구하고, Mistral 모델은 허위 정보 대응에 상당한 어려움을 겪으며 미국 및 중국 경쟁사들에 뒤처졌습니다.
학습 단계의 위협: 국가 지원 행위자들이 대규모 허위 정보 캠페인을 통해 LLM 출력을 조작하려는 시도를 적극적으로 하고 있는 만큼, 이번 벤치마크는 강력한 방어 체계의 시급한 필요성을 강조합니다.

AI는 러시아의 프로파간다에 맞설 수 있을까? 새로운 벤치마크가 밝혀낸 승자들

AI는 러시아 선전(Propaganda)에 저항할 수 있는가? 새로운 벤치마크가 밝힌 승자들

방법론: 웹 접속 없는 회복력 테스트

허위 정보 방어에서 선두를 달리는 Anthropic

Mistral의 취약성과 유럽 AI의 위기

이것이 AI 생태계에 중요한 이유

핵심 요약

Continue reading

𝗧𝗵𝗲 𝗚𝗿𝗲𝗮𝗍 𝗔𝗜 𝗗𝗶𝘃𝗲𝗿𝗴𝗲𝗻𝗰𝗲

𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗔𝗻 𝗟𝗟𝗠 𝗔𝗻𝗱 𝗧𝗵𝗲𝗻 𝗦𝗮𝗶𝗱 𝗡𝗼

𝗧𝗵𝗲 𝗨𝗦 𝗚𝗼𝘃𝗲𝗿𝗻𝗺𝗲𝗻𝘁 𝗥𝗲𝗰𝗮𝗹𝗹𝗲𝗱 𝗔𝗻 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹

AI 레드 티밍: 적대적 위험으로부터 거대 언어 모델 보호하기

Probably Raises $9M to Combat LLM Hallucinations with Precision Engineering