Mistral AI ने OCR 4 का अनावरण किया: डॉक्यूमेंट इंटेलिजेंस में एक नया बेंचमार्क
Mistral AI ने आधिकारिक तौर पर OCR 4 लॉन्च किया है, जो एक परिष्कृत नया मॉडल है जिसे मशीनों द्वारा जटिल डिजिटल दस्तावेजों की व्याख्या करने के तरीके को बदलने के लिए डिज़ाइन किया गया है। साधारण टेक्स्ट एक्सट्रैक्शन से आगे बढ़ते हुए, यह मॉडल ऑटोमेटेड वर्कफ़्लो और AI एजेंट इंटीग्रेशन में डॉक्यूमेंट प्रोसेसिंग के मानक को फिर से परिभाषित करने का वादा करता है।
रॉ टेक्स्ट से परे: उन्नत ब्लॉक क्लासिफिकेशन
पारंपरिक ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) टूल्स के विपरीत, जो केवल रॉ टेक्स्ट निकालते हैं, OCR 4 डॉक्यूमेंट लेआउट की गहरी संरचनात्मक समझ पेश करता है। यह मॉडल पेज पर तत्वों के सटीक स्थानिक निर्देशांक (spatial coordinates) की पहचान करने और उन्हें विशिष्ट कार्यात्मक भूमिकाएं सौंपने में सक्षम है।
इसका मतलब है कि मॉडल शीर्षकों (titles), तालिकाओं (tables), जटिल गणितीय समीकरणों और यहाँ तक कि हस्तलिखित हस्ताक्षरों के बीच अंतर कर सकता है। इस "ब्लॉक क्लासिफिकेशन" को करने के माध्यम से, OCR 4 दस्तावेजों को स्वचालित रूप से सार्थक, संरचित अनुभागों में विभाजित करता है। डेवलपर्स और डेटा इंजीनियरों के लिए, यह एक महत्वपूर्ण प्रगति है, क्योंकि यह RAG (Retrieval-Augmented Generation) सिस्टम या स्वायत्त AI एजेंटों में दस्तावेज फीड करते समय स्वच्छ डेटा इनजेशन (data ingestion) की अनुमति देता है, जिन्हें उच्च-सटीकता वाले संदर्भ (high-fidelity context) की आवश्यकता होती है।
ब्लाइंड टेस्टिंग में प्रमाणित सटीकता
अपने प्रदर्शन को प्रमाणित करने के लिए, Mistral ने 600 से अधिक दस्तावेजों को शामिल करते हुए एक कठोर ब्लाइंड टेस्ट आयोजित किया। परिणाम चौंकाने वाले थे: स्वतंत्र समीक्षकों ने 72 प्रतिशत टेस्ट मामलों में प्रतिस्पर्धी इंडस्ट्री मॉडल्स की तुलना में OCR 4 को प्राथमिकता दी। यह प्राथमिकता उन बारीकियों को संभालने की मॉडल की बेहतर क्षमता को उजागर करती है जो अक्सर पुराने OCR इंजनों को भ्रमित कर देती हैं।
इसके अलावा, OCR 4 कॉन्फिडेंस स्कोर के माध्यम से सूक्ष्म पारदर्शिता प्रदान करता है। प्रोसेस किए गए प्रत्येक शब्द या पेज के लिए, मॉडल अपनी निश्चितता का एक अनुमान आउटपुट करता है। यह फीचर एंटरप्राइज-ग्रेड एप्लिकेशन के लिए महत्वपूर्ण है जहाँ उच्च-जोखिम वाले निर्णयों के लिए 'ह्यूमन-इन-द-लूप' सत्यापन की आवश्यकता होती है, यदि मॉडल का कॉन्फिडेंस एक विशिष्ट सीमा से नीचे गिर जाता है।
बहुभाषी समर्थन और सुलभता
वैश्विक डॉक्यूमेंट प्रोसेसिंग में भाषा की बाधाएं एक महत्वपूर्ण बाधा बनी हुई हैं, लेकिन OCR 4 170 भाषाओं के समर्थन के साथ इस अंतर को पाटने का लक्ष्य रखता है। Mistral का दावा है कि कम प्रचलित या कम संसाधन वाली भाषाओं को प्रोसेस करते समय भी मॉडल उच्च सटीकता बनाए रखता है, जो इसे अंतरराष्ट्रीय उद्यमों के लिए एक बहुमुखी उपकरण बनाता है।
यह मॉडल Mistral API, Mistral Studio और Microsoft Foundry सहित कई प्लेटफार्मों के माध्यम से डेवलपर्स और व्यवसायों के लिए पहले से ही उपलब्ध है। Mistral ने इसके उपयोग को प्रोत्साहित करने के लिए एक प्रतिस्पर्धी मूल्य निर्धारण संरचना भी लागू की है: रियल-टाइम अनुरोधों के लिए मॉडल की लागत $4 प्रति 1,000 पेज है, जबकि $2 प्रति 1,000 पेज पर अधिक लागत प्रभावी बैच मोड भी उपलब्ध है।
AI इकोसिस्टम के लिए यह क्यों महत्वपूर्ण है
OCR 4 की रिलीज़ टेक्स्ट को "पढ़ने" से लेकर डॉक्यूमेंट आर्किटेक्चर को "समझने" की ओर बदलाव का संकेत देती है। जैसे-जैसे LLMs अधिक सक्षम होते जा रहे हैं, इंटेलिजेंस के लिए बाधा अक्सर उनमें फीड किए जाने वाले डेटा की गुणवत्ता होती है। PDF, Word फाइलों और PowerPoints से संरचित, वर्गीकृत और उच्च-विश्वास वाला डेटा प्रदान करके, Mistral अगली पीढ़ी के रीजनिंग-हैवी (reasoning-heavy) AI एप्लिकेशन के लिए आवश्यक उच्च-गुणवत्ता वाला "ईंधन" प्रदान कर रहा है।
मुख्य बातें
- स्ट्रक्चरल इंटेलिजेंस: OCR 4 केवल रॉ टेक्स्ट निकालने के बजाय शीर्षकों, तालिकाओं और समीकरणों की पहचान करने के लिए ब्लॉक क्लासिफिकेशन का उपयोग करता है।
- बेहतर प्रदर्शन: 600+ दस्तावेजों के ब्लाइंड टेस्ट में, मॉडल को 72% बार प्रतिस्पर्धियों की तुलना में प्राथमिकता दी गई।
- एंटरप्राइज रेडी: 170 भाषाओं का समर्थन करता है और API तथा Microsoft Foundry के माध्यम से संरचित मूल्य निर्धारण प्रदान करता है, जो बैच मोड में $2 प्रति 1,000 पेज से शुरू होता है।
