Mistral AI தனது OCR 4-ஐ அறிமுகப்படுத்துகிறது: ஆவண நுண்ணறிவில் (Document Intelligence) ஒரு புதிய மைல்கல்

Mistral AI தனது OCR 4-ஐ அதிகாரப்பூர்வமாக அறிமுகப்படுத்தியுள்ளது. சிக்கலான டிஜிட்டல் ஆவணங்களை இயந்திரங்கள் எவ்வாறு புரிந்துகொள்கின்றன என்பதை மாற்றியமைக்கும் வகையில் இந்த அதிநவீன புதிய மாதிரி வடிவமைக்கப்பட்டுள்ளது. வெறும் உரை பிரித்தெடுத்தலுக்கு (text extraction) அப்பால் சென்று, தானியங்கி பணிப்பாய்வுகள் (automated workflows) மற்றும் AI முகவர் ஒருங்கிணைப்பில் (AI agent integration) ஆவணச் செயலாக்கத்திற்கான தரநிலையை மறுவரையறை செய்ய இந்த மாதிரி உறுதியளிக்கிறது.

வெறும் உரையைத் தாண்டி: மேம்பட்ட பிளாக் வகைப்பாடு (Advanced Block Classification)

வெறும் உரையை மட்டும் சேகரிக்கும் பாரம்பரிய Optical Character Recognition (OCR) கருவிகளைப் போலல்லாமல், OCR 4 ஆவணங்களின் அமைப்பைப் பற்றிய ஆழமான கட்டமைப்புப் புரிதலை அறிமுகப்படுத்துகிறது. ஒரு பக்கத்தில் உள்ள கூறுகளின் துல்லியமான இடஞ்சார்ந்த ஆயத்தொலைவுகளை (spatial coordinates) அடையாளம் காணவும், அவற்றுக்கு குறிப்பிட்ட செயல்பாட்டுப் பங்குகளை வழங்கவும் இந்த மாதிரிக்கு திறன் உள்ளது.

இதன் பொருள், தலைப்புகள், அட்டவணைகள், சிக்கலான கணிதச் சமன்பாடுகள் மற்றும் கையால் எழுதப்பட்ட கையொப்பங்களைக் கூட இந்த மாதிரி வேறுபடுத்தி அறிய முடியும் என்பதாகும். இந்த "பிளாக் வகைப்பாட்டை" (block classification) செய்வதன் மூலம், OCR 4 ஆவணங்களை அர்த்தமுள்ள, கட்டமைக்கப்பட்ட பகுதிகளாகத் தானாகவே பிரிக்கிறது. டெவலப்பர்கள் மற்றும் தரவு பொறியாளர்களுக்கு (data engineers) இது ஒரு முக்கியமான முன்னேற்றமாகும், ஏனெனில் RAG (Retrieval-Augmented Generation) அமைப்புகள் அல்லது அதிகத் துல்லியமான சூழல் தேவைப்படும் தன்னாட்சி AI முகவர்களுக்கு ஆவணங்களை வழங்கும் போது, இது தூய்மையான தரவு உள்ளீட்டை (data ingestion) அனுமதிக்கிறது.

பிளைண்ட் டெஸ்டிங்கில் (Blind Testing) நிரூபிக்கப்பட்ட துல்லியம்

அதன் செயல்திறனைச் சரிபார்க்க, Mistral 600-க்கும் மேற்பட்ட ஆவணங்களைக் கொண்டு ஒரு கடுமையான பிளைண்ட் டெஸ்ட்டை நடத்தியது. அதன் முடிவுகள் வியக்கத்தக்கவை: 72 சதவீத சோதனை நிகழ்வுகளில், போட்டியிடும் தொழில்முறை மாதிரிகளை விட சுயாதீன ஆய்வாளர்கள் OCR 4-ஐவே விரும்பினர். பழைய OCR இயந்திரங்களைச் சிக்கலடையச் செய்யும் நுணுக்கங்களைக் கையாள்வதில் இந்த மாதிரியின் சிறந்த திறனை இந்தத் தெரிவு எடுத்துக்காட்டுகிறது.

மேலும், OCR 4 'கான்ஃபிடென்ஸ் ஸ்கோர்ஸ்' (confidence scores) மூலம் நுணுக்கமான வெளிப்படைத்தன்மையையும் வழங்குகிறது. செயலாக்கப்படும் ஒவ்வொரு சொல் அல்லது பக்கத்திற்கும், அதன் நிச்சயத்தன்மை குறித்த மதிப்பீட்டை இந்த மாதிரி வெளியிடுகிறது. மாதிரியின் நம்பிக்கை ஒரு குறிப்பிட்ட அளவை விடக் குறையும் போது, மனிதர்களின் சரிபார்ப்புத் தேவைப்படும் உயர்-முக்கிய முடிவெடுக்கும் நிறுவனத் தரநிலை பயன்பாடுகளுக்கு (enterprise-grade applications) இந்த அம்சம் மிகவும் அவசியமானது.

பன்மொழி ஆதரவு மற்றும் அணுகல்தன்மை

உலகளாவிய ஆவணச் செயலாக்கத்தில் மொழித் தடைகள் ஒரு குறிப்பிடத்தக்க தடையாகும், ஆனால் OCR 4 170 மொழிகளுக்கான ஆதரவுடன் இந்த இடைவெளியைக் குறைக்க முயல்கிறது. குறைவான பயன்பாட்டில் உள்ள அல்லது வளங்கள் குறைந்த மொழிகளைக் கூட செயலாக்கும் போது இந்த மாதிரி அதிகத் துல்லியத்தைப் பராமரிப்பதாக Mistral கூறுகிறது, இது சர்வதேச நிறுவனங்களுக்கு ஒரு பன்முகத்தன்மை கொண்ட கருவியாக அமைகிறது.

இந்த மாதிரி Mistral API, Mistral Studio மற்றும் Microsoft Foundry உள்ளிட்ட பல தளங்கள் மூலம் டெவலப்பர்கள் மற்றும் வணிகங்களுக்கு ஏற்கனவே கிடைக்கிறது. Mistral இதனைப் பயன்படுத்துவதை ஊக்குவிக்கப் போட்டித்தன்மை வாய்ந்த விலை அமைப்பையும் செயல்படுத்தியுள்ளது: நிகழ்நேரக் கோரிக்கைகளுக்கு (real-time requests) 1,000 பக்கங்களுக்கு $4 செலவாகும், அதே சமயம் மிகவும் சிக்கனமான பேட்ச் பயன்முறை (batch mode) 1,000 பக்கங்களுக்கு $2 என்ற விலையில் கிடைக்கிறது.

AI சூழலுக்கான (AI Ecosystem) இதன் முக்கியத்துவம்

OCR 4-ன் வெளியீடு, உரையை "வாசிப்பதிலிருந்து" ஆவணக் கட்டமைப்பைப் "புரிந்துகொள்வது" நோக்கிய மாற்றத்தைக் குறிக்கிறது. LLM-கள் அதிகத் திறன் கொண்டவையாக மாறும் போது, அவற்றின் நுண்ணறிவிற்கான தடையானது பெரும்பாலும் அவற்றுக்குள் செலுத்தப்படும் தரவின் தரமாகவே உள்ளது. PDFs, Word கோப்புகள் மற்றும் PowerPoints ஆகியவற்றிலிருந்து கட்டமைக்கப்பட்ட, வகைப்படுத்தப்பட்ட மற்றும் அதிக நம்பிக்கையளிக்கக்கூடிய தரவை வழங்குவதன் மூலம், Mistral அடுத்த தலைமுறை தர்க்கரீதியான (reasoning-heavy) AI பயன்பாடுகளுக்குத் தேவையான உயர்தர "எரிபொருளை" வழங்குகிறது.

முக்கியக் குறிப்புகள்

  • கட்டமைப்பு நுண்ணறிவு (Structural Intelligence): OCR 4 வெறும் உரையை மட்டும் பிரித்தெடுக்காமல், தலைப்புகள், அட்டவணைகள் மற்றும் சமன்பாடுகளை அடையாளம் காண பிளாக் வகைப்பாட்டைப் பயன்படுத்துகிறது.
  • சிறந்த செயல்திறன்: 600-க்கும் மேற்பட்ட ஆவணங்களைக் கொண்ட பிளைண்ட் டெஸ்ட்களில், போட்டியாளர்களை விட இந்த மாதிரி 72% நேரங்களில் தேர்ந்தெடுக்கப்பட்டது.
  • நிறுவனங்களுக்குத் தயார் (Enterprise Ready): 170 மொழிகளை ஆதரிக்கிறது மற்றும் API மற்றும் Microsoft Foundry மூலம் கட்டமைக்கப்பட்ட விலையை வழங்குகிறது, பேட்ச் பயன்முறையில் 1,000 பக்கங்களுக்கு $2 முதல் தொடங்குகிறது.