Mistral AI представляє OCR 4: новий еталон у сфері інтелектуального аналізу документів

Mistral AI офіційно запустила OCR 4 — складну нову модель, розроблену для трансформації того, як машини інтерпретують складні цифрові документи. Виходячи за межі простого вилучення тексту, ця модель обіцяє переосмислити стандарти обробки документів в автоматизованих робочих процесах та інтеграції ШІ-агентів.

Більше ніж просто текст: розширена класифікація блоків

На відміну від традиційних інструментів оптичного розпізнавання символів (OCR), які лише збирають «сирий» текст, OCR 4 впроваджує глибоке структурне розуміння макетів документів. Модель здатна визначати точні просторові координати елементів на сторінці та призначати їм конкретні функціональні ролі.

Це означає, що модель може розрізняти заголовки, таблиці, складні математичні рівняння та навіть рукописні підписи. Завдяки такій «класифікації блоків» OCR 4 автоматично сегментує документи на змістовні структуровані розділи. Для розробників і дата-інженерів це критично важливий прорив, оскільки він забезпечує чистіший процес отримання даних при подачі документів у системи RAG (Retrieval-Augmented Generation) або автономні ШІ-агенти, які потребують високої точності контексту.

Доведена точність у сліпих тестах

Щоб підтвердити свою ефективність, Mistral провела суворий сліпий тест, що охоплював понад 600 документів. Результати були вражаючими: незалежні рецензенти надавали перевагу OCR 4 перед конкуруючими галузевими моделями у 72 відсотках тестових випадків. Така перевага підкреслює виняткову здатність моделі обробляти нюанси, на яких часто спотикаються застарілі OCR-двигуни.

Крім того, OCR 4 забезпечує високу прозорість завдяки показникам впевненості (confidence scores). Для кожного обробленого слова або сторінки модель видає оцінку своєї впевненості. Ця функція є життєво важливою для корпоративних застосунків, де рішення з високими ставками потребують перевірки людиною (human-in-the-loop), якщо рівень впевненості моделі падає нижче певного порогу.

Багатомовна підтримка та доступність

Мовні бар'єри залишаються значною перешкодою в глобальній обробці документів, але OCR 4 має на меті подолати цей розрив завдяки підтримці 170 мов. Mistral стверджує, що модель зберігає високу точність навіть під час обробки менш поширених або малоресурсних мов, що робить її універсальним інструментом для міжнародних підприємств.

Модель уже доступна розробникам і бізнесу через кілька платформ, зокрема Mistral API, Mistral Studio та Microsoft Foundry. Mistral також впровадила конкурентоспроможну структуру ціноутворення для стимулювання впровадження: модель коштує 4 долари за 1000 сторінок для запитів у реальному часі, тоді як більш економічний пакетний режим (batch mode) доступний за 2 долари за 1000 сторінок.

Чому це важливо для екосистеми ШІ

Випуск OCR 4 сигналізує про перехід від «читання» тексту до «розуміння» архітектури документа. Оскільки можливості LLM постійно зростають, вузьким місцем для інтелекту часто стає якість даних, що надходять у них. Надаючи структуровані, класифіковані та достовірні дані з PDF, файлів Word і PowerPoint, Mistral забезпечує високоякісне «паливо», необхідне для наступного покоління ШІ-застосунків, орієнтованих на складні логічні міркування.

Основні висновки

  • Структурний інтелект: OCR 4 використовує класифікацію блоків для ідентифікації заголовків, таблиць і рівнянь, а не просто вилучає «сирий» текст.
  • Перевершена продуктивність: У сліпих тестах понад 600 документів модель отримувала перевагу перед конкурентами у 72% випадків.
  • Готовність до корпоративного використання: Підтримує 170 мов і пропонує структуроване ціноутворення через API та Microsoft Foundry, починаючи від 2 доларів за 1000 сторінок у пакетному режимі.