Mistral AI Melancarkan OCR 4: Penanda Aras Baharu dalam Kecerdasan Dokumen

Mistral AI telah melancarkan OCR 4 secara rasmi, sebuah model baharu yang canggih dan direka untuk mengubah cara mesin mentafsir dokumen digital yang kompleks. Dengan melangkaui pengekstrakan teks ringkas, model ini berjanji untuk mentakrifkan semula piawaian pemprosesan dokumen dalam aliran kerja automatik dan integrasi ejen AI.

Melangkaui Teks Mentah: Klasifikasi Blok Lanjutan

Tidak seperti alatan Pengenalan Aksara Optik (OCR) tradisional yang sekadar menyalin teks mentah, OCR 4 memperkenalkan pemahaman struktur yang mendalam terhadap susun atur dokumen. Model ini mampu mengenal pasti koordinat spatial yang tepat bagi elemen pada halaman dan menetapkan peranan fungsi yang khusus kepadanya.

Ini bermakna model tersebut boleh membezakan antara tajuk, jadual, persamaan matematik yang kompleks, dan juga tandatangan tulisan tangan. Dengan melaksanakan "klasifikasi blok" ini, OCR 4 secara automatik membahagikan dokumen kepada bahagian yang bermakna dan berstruktur. Bagi pembangun dan jurutera data, ini merupakan kemajuan kritikal kerana ia membolehkan pengambilan data yang lebih bersih apabila memasukkan dokumen ke dalam sistem RAG (Retrieval-Augmented Generation) atau ejen AI autonomi yang memerlukan konteks berketepatan tinggi.

Ketepatan Terbukti dalam Ujian Buta

Untuk mengesahkan prestasinya, Mistral telah menjalankan ujian buta yang ketat melibatkan lebih 600 dokumen. Keputusannya sangat mengejutkan: penilai bebas lebih memilih OCR 4 berbanding model industri pesaing dalam 72 peratus kes ujian. Keutamaan ini menonjolkan keupayaan unggul model tersebut dalam mengendalikan nuansa yang sering menyukarkan enjin OCR lama.

Selain itu, OCR 4 menyediakan ketelusan terperinci melalui skor keyakinan. Bagi setiap perkataan atau halaman yang diproses, model tersebut mengeluarkan anggaran tahap kepastiannya. Ciri ini sangat penting bagi aplikasi gred perusahaan di mana keputusan berisiko tinggi memerlukan pengesahan manusia (human-in-the-loop) jika tahap keyakinan model jatuh di bawah ambang tertentu.

Sokongan Pelbagai Bahasa dan Kebolehcapaian

Halangan bahasa kekal menjadi rintangan besar dalam pemprosesan dokumen global, namun OCR 4 bertujuan untuk merapatkan jurang ini dengan sokongan untuk 170 bahasa. Mistral mendakwa model tersebut mengekalkan ketepatan tinggi walaupun semasa memproses bahasa yang kurang lazim atau mempunyai sumber yang rendah, menjadikannya alat yang serba boleh untuk perusahaan antarabangsa.

Model ini sudah boleh diakses oleh pembangun dan perniagaan melalui beberapa platform, termasuk Mistral API, Mistral Studio, dan Microsoft Foundry. Mistral juga telah melaksanakan struktur harga yang kompetitif untuk menggalakkan penggunaan: model ini berharga $4 bagi setiap 1,000 halaman untuk permintaan masa nyata, manakala mod kelompok (batch mode) yang lebih kos efektif tersedia pada harga $2 bagi setiap 1,000 halaman.

Mengapa Ini Penting untuk Ekosistem AI

Pelancaran OCR 4 menandakan peralihan daripada "membaca" teks kepada "memahami" seni bina dokumen. Memandangkan LLM menjadi semakin berkemampuan, kekangan utama bagi kecerdasan selalunya adalah kualiti data yang dimasukkan ke dalamnya. Dengan menyediakan data yang berstruktur, diklasifikasikan, dan mempunyai tahap keyakinan tinggi daripada PDF, fail Word, dan PowerPoint, Mistral menyediakan "bahan api" berkualiti tinggi yang diperlukan untuk generasi aplikasi AI berasaskan penaakulan yang seterusnya.

Ringkasan Utama

  • Kecerdasan Struktur: OCR 4 menggunakan klasifikasi blok untuk mengenal pasti tajuk, jadual, dan persamaan, dan bukannya sekadar mengekstrak teks mentah.
  • Prestasi Unggul: Dalam ujian buta melibatkan 600+ dokumen, model ini lebih dipilih berbanding pesaing sebanyak 72% daripada masa.
  • Sedia untuk Perusahaan: Menyokong 170 bahasa dan menawarkan harga berstruktur melalui API dan Microsoft Foundry, bermula dari $2 bagi setiap 1,000 halaman dalam mod kelompok.