Berhenti Melakukan Parsing PDF Semasa Waktu Render

📅3 hours ago⏱1 min read

𝗕𝗲𝗿𝗵𝗲𝗻𝘁𝗶 𝗠𝗲𝗹𝗮𝗸𝘂𝗸𝗮𝗻 𝗣𝗮𝗿𝘀𝗶𝗻𝗴 𝗣𝗗𝗙 𝗽𝗮𝗱𝗮 𝗪𝗮𝗸𝘁𝘂 𝗥𝗲𝗻𝗱𝗲𝗿

Kebanyakan alat pengekstrakan PDF frontend gagal.

Pembangun cuba meneka struktur dokumen daripada output visual. Mereka melihat piksel yang telah dirender untuk mencari lajur, jadual, atau senarai. Mereka menggunakan penglihatan komputer atau kedekatan piksel untuk menentukan di mana sesuatu kotak bermula.

Ini adalah cara pembinaan yang salah.

PDF sudah pun mengandungi data struktur eksplisit dalam aliran operatornya. Sebuah jadual bukan sekadar sekumpulan piksel yang berdekatan. Ia dilukis dengan arahan khusus seperti moveTo, lineTo, atau rectangle. Sempadan yang ingin anda cari sudah pun dikodkan dalam sumbernya.

Jika pengekstrak anda memberikan lajur yang berbeza pada zum 100% berbanding zum 150%, anda tidak sedang mengekstrak struktur. Anda hanya sedang memadankan corak artifak visual.

Berhenti menggunakan heuristik visual. Mula melakukan parsing pada aliran operator.

Mengapa aliran operator lebih baik:

Ia bersifat deterministik. Ia berfungsi dengan cara yang sama tanpa mengira skala atau pembayangan fon (font hinting).
Ia menggunakan data sebenar. Anda menggunakan laluan dan koordinat sebenar yang ditetapkan oleh penciptanya.
Ia mengelakkan ralat matematik. Sebagai contoh, menggunakan titik tengah antara pusat teks untuk mencari zon akan menyebabkan pepijat pembundaran (rounding bugs). Menggunakan bahagian tepi atas kotak sempadan (bounding box) yang sebenar adalah satu-satunya cara yang betul.

Jalan yang sukar adalah jalan yang betul.

Anda mesti memahami timbunan CTM. Anda mesti menjejaki keadaan matriks dan mengelaskan sublaluan (subpaths). Anda perlu membaca spesifikasi PDF dan kod sumber untuk menguasainya.

Ini memerlukan lebih banyak usaha pada peringkat awal. Tetapi ia berfungsi untuk setiap PDF yang dimuat naik oleh pengguna. Alat berasaskan piksel hanya berfungsi untuk beberapa fail dalam set ujian anda.

Bina pengekstrak yang sebenar, bukan sekadar demo.

Sumber: https://dev.to/bonzai2carn/stop-parsing-pdfs-at-render-time-a-better-architecture-for-structured-extraction-5fb8

Berhenti Melakukan Parsing PDF Semasa Waktu Render

Continue reading

𝗖𝗼𝗹𝗱𝗙𝘂𝘀𝗶𝗼𝗻 𝗣𝗗𝗙 𝗦𝗰𝗮𝗹𝗶𝗻𝗴

𝗦𝗰𝗮𝗹𝗲 𝗬𝗼𝘂𝗿 𝗖𝗼𝗹𝗱𝗙𝘂𝘀𝗶𝗼𝗻 𝗣𝗗𝗙 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

𝗧𝗵𝗲 𝗗𝗲𝗮𝘁𝗵 𝗼𝗳 𝘁𝗵𝗲 𝗙𝗿𝗼𝗻𝘁 𝗘𝗻𝗱

𝗔𝗜 𝗖𝗼𝗱𝗲 𝗥𝗲𝘃𝗶𝗲𝘄 𝗜𝘀 𝗔 𝗥𝗼𝘂𝘁𝗶𝗻𝗴 𝗣𝗿𝗼𝗯𝗹𝗲𝗺

Berhenti Mengurai PDF semasa Waktu Render