Mistral AI OCR 4ని ఆవిష్కరించింది: డాక్యుమెంట్ ఇంటెలిజెన్స్‌లో ఒక కొత్త బెంచ్‌మార్క్

సంక్లిష్టమైన డిజిటల్ డాక్యుమెంట్లను యంత్రాలు ఎలా అర్థం చేసుకుంటాయనే విధానాన్ని మార్చడానికి రూపొందించిన అత్యాధునిక కొత్త మోడల్ OCR 4ని Mistral AI అధికారికంగా ప్రారంభించింది. కేవలం టెక్స్ట్ ఎక్స్‌ట్రాక్షన్‌కు మాత్రమే పరిమితం కాకుండా, ఈ మోడల్ ఆటోమేటెడ్ వర్క్‌ఫ్లోలు మరియు AI ఏజెంట్ ఇంటిగ్రేషన్‌లో డాక్యుమెంట్ ప్రాసెసింగ్ ప్రమాణాలను పునర్నిర్వచించబోతోంది.

కేవలం ముడి టెక్స్ట్‌కు మించి: అడ్వాన్స్‌డ్ బ్లాక్ క్లాసిఫికేషన్

కేవలం ముడి టెక్స్ట్‌ను మాత్రమే సేకరించే సాంప్రదాయ Optical Character Recognition (OCR) సాధనాలకు భిన్నంగా, OCR 4 డాక్యుమెంట్ లేఅవుట్‌ల యొక్క లోతైన నిర్మాణ అవగాహనను అందిస్తుంది. ఈ మోడల్ ఒక పేజీలోని అంశాల యొక్క ఖచ్చితమైన స్పేషియల్ కోఆర్డినేట్‌లను గుర్తించగలదు మరియు వాటికి నిర్దిష్ట ఫంక్షనల్ పాత్రలను కేటాయించగలదు.

అంటే ఈ మోడల్ టైటిల్స్, టేబుల్స్, సంక్లిష్టమైన గణిత సమీకరణాలు మరియు చేతితో రాసిన సంతకాలను కూడా వేరు చేయగలదు. ఈ "బ్లాక్ క్లాసిఫికేషన్" చేయడం ద్వారా, OCR 4 డాక్యుమెంట్లను అర్థవంతమైన, నిర్మాణాత్మక విభాగాలుగా స్వయంచాలకంగా విభజిస్తుంది. డెవలపర్లు మరియు డేటా ఇంజనీర్లకు ఇది ఒక కీలకమైన పురోగతి, ఎందుకంటే ఇది RAG (Retrieval-Augmented Generation) సిస్టమ్‌లు లేదా అధిక-ఫిడెలిటీ కాంటెక్స్ట్ అవసరమయ్యే స్వయంప్రతిపత్తి కలిగిన AI ఏజెంట్లకు డాక్యుమెంట్లను పంపేటప్పుడు మరింత స్వచ్ఛమైన డేటా ఇన్‌జెక్షన్‌ను అనుమతిస్తుంది.

బ్లైండ్ టెస్టింగ్‌లో నిరూపితమైన ఖచ్చితత్వం

దీని పనితీరును ధృవీకరించడానికి, Mistral 600 కంటే ఎక్కువ డాక్యుమెంట్‌లతో కఠినమైన బ్లైండ్ టెస్ట్‌ను నిర్వహించింది. ఫలితాలు ఆశ్చర్యకరంగా ఉన్నాయి: స్వతంత్ర సమీక్షకులు 72 శాతం టెస్ట్ కేసులలో పోటీ పరిశ్రమ మోడల్‌ల కంటే OCR 4ని ఎక్కువగా ఇష్టపడ్డారు. పాత OCR ఇంజన్‌లను తప్పుదారి పట్టించే సూక్ష్మ అంశాలను (nuances) నిర్వహించడంలో ఈ మోడల్ యొక్క అద్భుతమైన సామర్థ్యాన్ని ఈ ప్రాధాన్యత తెలియజేస్తుంది.

అంతేకాకుండా, OCR 4 కాన్ఫిడెన్స్ స్కోర్‌ల ద్వారా వివరణాత్మక పారదర్శకతను అందిస్తుంది. ప్రాసెస్ చేయబడిన ప్రతి పదం లేదా పేజీకి, మోడల్ దాని ఖచ్చితత్వం యొక్క అంచనాను అందిస్తుంది. మోడల్ యొక్క కాన్ఫిడెన్స్ ఒక నిర్దిష్ట స్థాయి కంటే తగ్గితే, మానవ పర్యవేక్షణ (human-in-the-loop) అవసరమయ్యే హై-స్టేక్స్ నిర్ణయాలకు సంబంధించిన ఎంటర్‌ప్రైజ్-గ్రేడ్ అప్లికేషన్‌లకు ఈ ఫీచర్ చాలా కీలకం.

బహుభాషా మద్దతు మరియు అందుబాటు

గ్లోబల్ డాక్యుమెంట్ ప్రాసెసింగ్‌లో భాషా అడ్డంకులు ఒక ముఖ్యమైన సవాలుగా ఉన్నాయి, కానీ OCR 4 170 భాషల మద్దతుతో ఈ అంతరాన్ని తగ్గించాలని లక్ష్యంగా పెట్టుకుంది. తక్కువగా ఉపయోగించే లేదా తక్కువ వనరులు ఉన్న భాషలను ప్రాసెస్ చేస్తున్నప్పుడు కూడా ఈ మోడల్ అధిక ఖచ్చితత్వాన్ని కలిగి ఉంటుందని Mistral పేర్కొంది, ఇది అంతర్జాతీయ సంస్థలకు ఒక బహుముఖ సాధనంగా మారుతుంది.

ఈ మోడల్ ఇప్పటికే Mistral API, Mistral Studio మరియు Microsoft Foundry వంటి పలు ప్లాట్‌ఫారమ్‌ల ద్వారా డెవలపర్‌లకు మరియు వ్యాపారాలకు అందుబాటులో ఉంది. దీని వినియోగాన్ని ప్రోత్సహించడానికి Mistral పోటీతత్వ ధరల నిర్మాణాన్ని కూడా అమలు చేసింది: రియల్-టైమ్ రిక్వెస్ట్‌ల కోసం మోడల్ ధర 1,000 పేజీలకు $4 ఉండగా, మరింత తక్కువ ఖర్చుతో కూడిన బ్యాచ్ మోడ్ 1,000 పేజీలకు $2 వద్ద అందుబాటులో ఉంది.

AI ఎకోసిస్టమ్ కోసం ఇది ఎందుకు ముఖ్యం

OCR 4 విడుదల అనేది టెక్స్ట్‌ను కేవలం "చదవడం" నుండి డాక్యుమెంట్ నిర్మాణాన్ని "అర్థం చేసుకోవడం" వైపు మారుతున్న మార్పును సూచిస్తుంది. LLMలు మరింత సామర్థ్యం గలవిగా మారుతున్న కొద్దీ, వాటికి అందించే డేటా యొక్క నాణ్యత అనేది మేధస్సు యొక్క ప్రధాన అడ్డంకిగా మారుతోంది. PDFs, Word ఫైళ్లు మరియు PowerPoints నుండి నిర్మాణాత్మకమైన, వర్గీకరించబడిన మరియు అధిక-కాన్ఫిడెన్స్ కలిగిన డేటాను అందించడం ద్వారా, తదుపరి తరం రీజనింగ్-హెవీ AI అప్లికేషన్‌లకు అవసరమైన అధిక-నాణ్యత కలిగిన "ఇంధనాన్ని" Mistral అందిస్తోంది.

ముఖ్య అంశాలు

  • నిర్మాణాత్మక మేధస్సు (Structural Intelligence): OCR 4 కేవలం ముడి టెక్స్ట్‌ను సేకరించడమే కాకుండా, టైటిల్స్, టేబుల్స్ మరియు సమీకరణాలను గుర్తించడానికి బ్లాక్ క్లాసిఫికేషన్‌ను ఉపయోగిస్తుంది.
  • అద్భుతమైన పనితీరు: 600 కంటే ఎక్కువ డాక్యుమెంట్‌లతో నిర్వహించిన బ్లైండ్ టెస్ట్‌లలో, 72% సందర్భాలలో పోటీదారుల కంటే ఈ మోడల్‌కే ప్రాధాన్యత లభించింది.
  • ఎంటర్‌ప్రైజ్ రెడీ: 170 భాషలను సపోర్ట్ చేస్తుంది మరియు API మరియు Microsoft Foundry ద్వారా నిర్మాణాత్మక ధరలను అందిస్తుంది, బ్యాచ్ మోడ్‌లో 1,000 పేజీలకు $2 నుండి ప్రారంభమవుతుంది.