Mistral AI OCR 4ని ఆవిష్కరించింది: డాక్యుమెంట్ ఇంటెలిజెన్స్లో ఒక కొత్త బెంచ్మార్క్
సంక్లిష్టమైన డిజిటల్ డాక్యుమెంట్లను యంత్రాలు ఎలా అర్థం చేసుకుంటాయనే విధానాన్ని మార్చడానికి రూపొందించిన అత్యాధునిక కొత్త మోడల్ OCR 4ని Mistral AI అధికారికంగా ప్రారంభించింది. కేవలం టెక్స్ట్ ఎక్స్ట్రాక్షన్కు మాత్రమే పరిమితం కాకుండా, ఈ మోడల్ ఆటోమేటెడ్ వర్క్ఫ్లోలు మరియు AI ఏజెంట్ ఇంటిగ్రేషన్లో డాక్యుమెంట్ ప్రాసెసింగ్ ప్రమాణాలను పునర్నిర్వచించబోతోంది.
కేవలం ముడి టెక్స్ట్కు మించి: అడ్వాన్స్డ్ బ్లాక్ క్లాసిఫికేషన్
కేవలం ముడి టెక్స్ట్ను మాత్రమే సేకరించే సాంప్రదాయ Optical Character Recognition (OCR) సాధనాలకు భిన్నంగా, OCR 4 డాక్యుమెంట్ లేఅవుట్ల యొక్క లోతైన నిర్మాణ అవగాహనను అందిస్తుంది. ఈ మోడల్ ఒక పేజీలోని అంశాల యొక్క ఖచ్చితమైన స్పేషియల్ కోఆర్డినేట్లను గుర్తించగలదు మరియు వాటికి నిర్దిష్ట ఫంక్షనల్ పాత్రలను కేటాయించగలదు.
అంటే ఈ మోడల్ టైటిల్స్, టేబుల్స్, సంక్లిష్టమైన గణిత సమీకరణాలు మరియు చేతితో రాసిన సంతకాలను కూడా వేరు చేయగలదు. ఈ "బ్లాక్ క్లాసిఫికేషన్" చేయడం ద్వారా, OCR 4 డాక్యుమెంట్లను అర్థవంతమైన, నిర్మాణాత్మక విభాగాలుగా స్వయంచాలకంగా విభజిస్తుంది. డెవలపర్లు మరియు డేటా ఇంజనీర్లకు ఇది ఒక కీలకమైన పురోగతి, ఎందుకంటే ఇది RAG (Retrieval-Augmented Generation) సిస్టమ్లు లేదా అధిక-ఫిడెలిటీ కాంటెక్స్ట్ అవసరమయ్యే స్వయంప్రతిపత్తి కలిగిన AI ఏజెంట్లకు డాక్యుమెంట్లను పంపేటప్పుడు మరింత స్వచ్ఛమైన డేటా ఇన్జెక్షన్ను అనుమతిస్తుంది.
బ్లైండ్ టెస్టింగ్లో నిరూపితమైన ఖచ్చితత్వం
దీని పనితీరును ధృవీకరించడానికి, Mistral 600 కంటే ఎక్కువ డాక్యుమెంట్లతో కఠినమైన బ్లైండ్ టెస్ట్ను నిర్వహించింది. ఫలితాలు ఆశ్చర్యకరంగా ఉన్నాయి: స్వతంత్ర సమీక్షకులు 72 శాతం టెస్ట్ కేసులలో పోటీ పరిశ్రమ మోడల్ల కంటే OCR 4ని ఎక్కువగా ఇష్టపడ్డారు. పాత OCR ఇంజన్లను తప్పుదారి పట్టించే సూక్ష్మ అంశాలను (nuances) నిర్వహించడంలో ఈ మోడల్ యొక్క అద్భుతమైన సామర్థ్యాన్ని ఈ ప్రాధాన్యత తెలియజేస్తుంది.
అంతేకాకుండా, OCR 4 కాన్ఫిడెన్స్ స్కోర్ల ద్వారా వివరణాత్మక పారదర్శకతను అందిస్తుంది. ప్రాసెస్ చేయబడిన ప్రతి పదం లేదా పేజీకి, మోడల్ దాని ఖచ్చితత్వం యొక్క అంచనాను అందిస్తుంది. మోడల్ యొక్క కాన్ఫిడెన్స్ ఒక నిర్దిష్ట స్థాయి కంటే తగ్గితే, మానవ పర్యవేక్షణ (human-in-the-loop) అవసరమయ్యే హై-స్టేక్స్ నిర్ణయాలకు సంబంధించిన ఎంటర్ప్రైజ్-గ్రేడ్ అప్లికేషన్లకు ఈ ఫీచర్ చాలా కీలకం.
బహుభాషా మద్దతు మరియు అందుబాటు
గ్లోబల్ డాక్యుమెంట్ ప్రాసెసింగ్లో భాషా అడ్డంకులు ఒక ముఖ్యమైన సవాలుగా ఉన్నాయి, కానీ OCR 4 170 భాషల మద్దతుతో ఈ అంతరాన్ని తగ్గించాలని లక్ష్యంగా పెట్టుకుంది. తక్కువగా ఉపయోగించే లేదా తక్కువ వనరులు ఉన్న భాషలను ప్రాసెస్ చేస్తున్నప్పుడు కూడా ఈ మోడల్ అధిక ఖచ్చితత్వాన్ని కలిగి ఉంటుందని Mistral పేర్కొంది, ఇది అంతర్జాతీయ సంస్థలకు ఒక బహుముఖ సాధనంగా మారుతుంది.
ఈ మోడల్ ఇప్పటికే Mistral API, Mistral Studio మరియు Microsoft Foundry వంటి పలు ప్లాట్ఫారమ్ల ద్వారా డెవలపర్లకు మరియు వ్యాపారాలకు అందుబాటులో ఉంది. దీని వినియోగాన్ని ప్రోత్సహించడానికి Mistral పోటీతత్వ ధరల నిర్మాణాన్ని కూడా అమలు చేసింది: రియల్-టైమ్ రిక్వెస్ట్ల కోసం మోడల్ ధర 1,000 పేజీలకు $4 ఉండగా, మరింత తక్కువ ఖర్చుతో కూడిన బ్యాచ్ మోడ్ 1,000 పేజీలకు $2 వద్ద అందుబాటులో ఉంది.
AI ఎకోసిస్టమ్ కోసం ఇది ఎందుకు ముఖ్యం
OCR 4 విడుదల అనేది టెక్స్ట్ను కేవలం "చదవడం" నుండి డాక్యుమెంట్ నిర్మాణాన్ని "అర్థం చేసుకోవడం" వైపు మారుతున్న మార్పును సూచిస్తుంది. LLMలు మరింత సామర్థ్యం గలవిగా మారుతున్న కొద్దీ, వాటికి అందించే డేటా యొక్క నాణ్యత అనేది మేధస్సు యొక్క ప్రధాన అడ్డంకిగా మారుతోంది. PDFs, Word ఫైళ్లు మరియు PowerPoints నుండి నిర్మాణాత్మకమైన, వర్గీకరించబడిన మరియు అధిక-కాన్ఫిడెన్స్ కలిగిన డేటాను అందించడం ద్వారా, తదుపరి తరం రీజనింగ్-హెవీ AI అప్లికేషన్లకు అవసరమైన అధిక-నాణ్యత కలిగిన "ఇంధనాన్ని" Mistral అందిస్తోంది.
ముఖ్య అంశాలు
- నిర్మాణాత్మక మేధస్సు (Structural Intelligence): OCR 4 కేవలం ముడి టెక్స్ట్ను సేకరించడమే కాకుండా, టైటిల్స్, టేబుల్స్ మరియు సమీకరణాలను గుర్తించడానికి బ్లాక్ క్లాసిఫికేషన్ను ఉపయోగిస్తుంది.
- అద్భుతమైన పనితీరు: 600 కంటే ఎక్కువ డాక్యుమెంట్లతో నిర్వహించిన బ్లైండ్ టెస్ట్లలో, 72% సందర్భాలలో పోటీదారుల కంటే ఈ మోడల్కే ప్రాధాన్యత లభించింది.
- ఎంటర్ప్రైజ్ రెడీ: 170 భాషలను సపోర్ట్ చేస్తుంది మరియు API మరియు Microsoft Foundry ద్వారా నిర్మాణాత్మక ధరలను అందిస్తుంది, బ్యాచ్ మోడ్లో 1,000 పేజీలకు $2 నుండి ప్రారంభమవుతుంది.
