Mistral AI, OCR 4 공개: 문서 지능의 새로운 기준 제시

Mistral AI가 복잡한 디지털 문서를 기계가 해석하는 방식을 혁신하기 위해 설계된 정교한 신규 모델인 OCR 4를 공식 출시했습니다. 단순한 텍스트 추출을 넘어, 이 모델은 자동화된 워크플로우 및 AI 에이전트 통합 과정에서의 문서 처리 표준을 재정의할 것으로 기대됩니다.

단순 텍스트를 넘어: 고급 블록 분류(Block Classification)

단순히 원시 텍스트를 긁어모으는 기존의 광학 문자 인식(OCR) 도구와 달리, OCR 4는 문서 레이아웃에 대한 깊은 구조적 이해를 도입했습니다. 이 모델은 페이지 내 요소의 정확한 공간 좌표를 식별하고 각 요소에 특정 기능적 역할을 부여할 수 있습니다.

즉, 이 모델은 제목, 표, 복잡한 수학 방정식, 심지어 수기 서명까지 구분할 수 있습니다. 이러한 "블록 분류(block classification)"를 수행함으로써, OCR 4는 문서를 의미 있고 구조화된 섹션으로 자동 분할합니다. 이는 개발자와 데이터 엔지니어에게 매우 중요한 진보입니다. 고정밀 컨텍스트가 필요한 RAG(Retrieval-Augmented Generation) 시스템이나 자율형 AI 에이전트에 문서를 입력할 때, 더욱 깔끔한 데이터 수집(ingestion)이 가능하기 때문입니다.

블라인드 테스트를 통해 입증된 정확도

성능 검증을 위해 Mistral은 600개 이상의 문서를 대상으로 엄격한 블라인드 테스트를 실시했습니다. 결과는 놀라웠습니다. 독립적인 검토자들이 테스트 케이스의 72%에서 경쟁사 모델보다 OCR 4를 선호했습니다. 이러한 선호도는 기존 OCR 엔진들이 흔히 실수하는 미세한 차이(nuances)를 처리하는 모델의 탁월한 능력을 보여줍니다.

또한, OCR 4는 신뢰도 점수(confidence scores)를 통해 세밀한 투명성을 제공합니다. 처리되는 모든 단어 또는 페이지에 대해 모델은 확신 정도를 추정치로 출력합니다. 이 기능은 모델의 신뢰도가 특정 임계값 미만으로 떨어질 경우 인간의 확인(human-in-the-loop)이 필요한 고위험 의사결정용 엔터프라이즈급 애플리케이션에서 매우 중요합니다.

다국어 지원 및 접근성

언어 장벽은 글로벌 문서 처리에서 여전히 큰 장애물로 남아 있지만, OCR 4는 170개 언어 지원을 통해 이 격차를 해소하는 것을 목표로 합니다. Mistral은 이 모델이 흔하지 않거나 리소스가 부족한 언어를 처리할 때도 높은 정확도를 유지한다고 주장하며, 이를 통해 글로벌 기업을 위한 다재다능한 도구로서의 면모를 갖추었습니다.

이 모델은 Mistral API, Mistral Studio, Microsoft Foundry를 포함한 여러 플랫폼을 통해 개발자와 기업이 이미 사용할 수 있습니다. 또한 Mistral은 도입을 장려하기 위해 경쟁력 있는 가격 체계를 구현했습니다. 실시간 요청의 경우 1,000페이지당 4달러이며, 보다 경제적인 배치(batch) 모드는 1,000페이지당 2달러에 이용 가능합니다.

AI 생태계에 이것이 중요한 이유

OCR 4의 출시는 텍스트를 단순히 "읽는" 단계에서 문서 구조를 "이해하는" 단계로의 전환을 의미합니다. LLM의 능력이 향상됨에 따라, 지능의 병목 현상은 종종 모델에 입력되는 데이터의 품질에서 발생합니다. PDF, Word 파일, PowerPoint로부터 구조화되고 분류되었으며 신뢰도가 높은 데이터를 제공함으로써, Mistral은 차세대 추론 중심 AI 애플리케이션에 필요한 고품질 "연료"를 공급하고 있습니다.

핵심 요약

  • 구조적 지능: OCR 4는 단순히 원시 텍스트를 추출하는 대신, 블록 분류를 사용하여 제목, 표, 방정식을 식별합니다.
  • 우수한 성능: 600개 이상의 문서를 대상으로 한 블라인드 테스트에서 경쟁사보다 72% 더 높은 선호도를 기록했습니다.
  • 엔터프라이즈 준비 완료: 170개 언어를 지원하며, API 및 Microsoft Foundry를 통해 배치 모드 기준 1,000페이지당 2달러부터 시작하는 구조화된 가격 체계를 제공합니다.