Mistral AI از OCR 4 رونمایی کرد: معیاری جدید در هوش اسناد

Mistral AI رسماً از OCR 4 رونمایی کرد؛ مدل جدید و پیشرفته‌ای که برای متحول کردن نحوه تفسیر اسناد دیجیتال پیچیده توسط ماشین‌ها طراحی شده است. این مدل با فراتر رفتن از استخراج ساده متن، وعده می‌دهد که استانداردهای پردازش اسناد در جریان‌های کاری خودکار و ادغام با عوامل هوش مصنوعی (AI agents) را بازتعریف کند.

فراتر از متن خام: طبقه‌بندی پیشرفته بلوک‌ها

برخلاف ابزارهای سنتی تشخیص نوری کاراکتر (OCR) که صرفاً متن خام را استخراج می‌کنند، OCR 4 درک ساختاری عمیقی از چیدمان اسناد ارائه می‌دهد. این مدل قادر است مختصات مکانی دقیق عناصر در یک صفحه را شناسایی کرده و نقش‌های عملکردی خاصی به آن‌ها اختصاص دهد.

این بدان معناست که مدل می‌تواند میان عناوین، جداول، معادلات ریاضی پیچیده و حتی امضاهای دست‌نویس تمایز قائل شود. OCR 4 با انجام این «طبقه‌بندی بلوک‌ها»، اسناد را به‌طور خودکار به بخش‌های معنادار و ساختاریافته تقسیم می‌کند. برای توسعه‌دهندگان و مهندسان داده، این یک پیشرفت حیاتی است، زیرا اجازه می‌دهد هنگام تغذیه اسناد به سیستم‌های RAG (تولید تقویت‌شده با بازیابی) یا عوامل هوش مصنوعی خودگردان که به بافتار (context) با دقت بالا نیاز دارند، فرآیند ورود داده‌ها (data ingestion) تمیزتر انجام شود.

دقت اثبات‌شده در آزمون‌های کور

برای تأیید عملکرد خود، Mistral یک آزمون کور دقیق شامل بیش از ۶۰۰ سند انجام داد. نتایج خیره‌کننده بود: بازبین‌های مستقل در ۷۲ درصد از موارد آزمون، OCR 4 را به مدل‌های رقیب در این صنعت ترجیح دادند. این اولویت، نشان‌دهنده توانایی برتر مدل در مدیریت جزئیاتی است که اغلب موتورهای OCR قدیمی را دچار مشکل می‌کند.

علاوه بر این، OCR 4 از طریق امتیازهای اطمینان (confidence scores)، شفافیت دقیقی ارائه می‌دهد. برای هر کلمه یا صفحه پردازش‌شده، مدل تخمینی از میزان قطعیت خود ارائه می‌کند. این ویژگی برای کاربردهای سطح سازمانی که در آن‌ها تصمیمات حساس نیازمند تأیید انسانی (human-in-the-loop) در صورت پایین‌تر رفتن سطح اطمینان مدل از یک آستانه مشخص است، حیاتی می‌باشد.

پشتیبانی از چندین زبان و دسترسی‌پذیری

موانع زبانی همچنان مانع بزرگی در پردازش جهانی اسناد هستند، اما OCR 4 قصد دارد با پشتیبانی از ۱۷۰ زبان، این شکاف را پر کند. Mistral ادعا می‌کند که این مدل حتی هنگام پردازش زبان‌های کمتر رایج یا کم‌منبع (low-resource)، دقت بالایی را حفظ می‌کند و آن را به ابزاری همه‌کاره برای شرکت‌های بین‌المللی تبدیل می‌کند.

این مدل هم‌اکنون از طریق چندین پلتفرم از جمله Mistral API، Mistral Studio و Microsoft Foundry در دسترس توسعه‌دهندگان و کسب‌وکارها قرار دارد. Mistral همچنین یک ساختار قیمت‌گذاری رقابتی را برای تشویق به استفاده از آن پیاده‌سازی کرده است: هزینه این مدل برای درخواست‌های آنی (real-time) ۴ دلار به ازای هر ۱۰۰۰ صفحه است، در حالی که حالت دسته‌ای (batch mode) مقرون‌به‌صرفه‌تر با قیمت ۲ دلار به ازای هر ۱۰۰۰ صفحه در دسترس است.

چرا این موضوع برای اکوسیستم هوش مصنوعی اهمیت دارد

عرضه OCR 4 نشان‌دهنده گذار از «خواندن» متن به «درک» معماری اسناد است. با توانمندتر شدن مدل‌های زبانی بزرگ (LLMs)، گلوگاه هوش اغلب کیفیت داده‌هایی است که به آن‌ها تزریق می‌شود. Mistral با ارائه داده‌های ساختاریافته، طبقه‌بندی‌شده و با اطمینان بالا از فایل‌های PDF، Word و PowerPoint، «سوخت» باکیفیتی را که برای نسل بعدی برنامه‌های هوش مصنوعی مبتنی بر استدلال (reasoning-heavy) مورد نیاز است، فراهم می‌کند.

نکات کلیدی

  • هوش ساختاری: OCR 4 به جای صرفاً استخراج متن خام، از طبقه‌بندی بلوک‌ها برای شناسایی عناوین، جداول و معادلات استفاده می‌کند.
  • عملکرد برتر: در آزمون‌های کور شامل بیش از ۶۰۰ سند، این مدل در ۷۲ درصد موارد بر رقبای خود برتری داشت.
  • آماده برای سازمان‌ها: از ۱۷۰ زبان پشتیبانی می‌کند و قیمت‌گذاری ساختاریافته‌ای را از طریق API و Microsoft Foundry ارائه می‌دهد که در حالت دسته‌ای از ۲ دلار به ازای هر ۱۰۰۰ صفحه شروع می‌شود.