𝗦𝘁𝗼𝗽 𝗣𝗮𝗿𝘀𝗶𝗻𝗴 𝗣𝗗𝗙𝘀 𝗮𝘁 𝗥𝗲𝗻𝗱𝗲𝗿 𝗧𝗶𝗺𝗲

📅3 hours ago⏱1 min read

𝗦𝘁𝗼𝗽 𝗺𝗲𝘁 𝗵𝗲𝘁 𝗽𝗮𝗿𝘀𝗲𝗻 𝘃𝗮𝗻 𝗣𝗗𝗙'𝘀 𝘁𝗶𝗲𝗻𝘀 𝗵𝗲𝘁 𝗿𝗲𝗻𝗱𝗲𝗿𝗲𝗻

De meeste frontend PDF-extractietools falen.

Ontwikkelaars proberen de documentstructuur te raden op basis van de visuele output. Ze kijken naar gerenderde pixels om kolommen, tabellen of lijsten te vinden. Ze gebruiken computer vision of pixelnabijheid om te bepalen waar een kader begint.

Dit is de verkeerde manier om te bouwen.

Een PDF bevat al expliciete structurele gegevens in de operator stream. Een tabel is niet zomaar een groep nabijgelegen pixels. Het wordt getekend met specifieke commando's zoals moveTo, lineTo, of rectangle. De grenzen die je wilt vinden, zijn al gecodeerd in de bron.

Als je extractor bij 100% zoom andere kolommen geeft dan bij 150% zoom, dan extraheer je geen structuur. Je bent visuele artefacten aan het patroonmatchen.

Stop met het gebruiken van visuele heuristieken. Begin met het parsen van de operator stream.

Waarom de operator stream beter is:

Het is deterministisch. Het werkt op dezelfde manier, ongeacht de schaal of font hinting.
Het gebruikt echte data. Je gebruikt de daadwerkelijke paden en coördinaten die door de maker zijn gedefinieerd.
Het voorkomt rekenfouten. Bijvoorbeeld: het gebruik van middelpunten tussen tekstcentra om zones te vinden, leidt tot afrondingsfouten. Het gebruik van de werkelijke bovenrand van een bounding box is de enige juiste manier.

De moeilijke weg is de juiste weg.

Je moet de CTM-stack begrijpen. Je moet matrixtoestanden bijhouden en subpaden classificeren. Je moet de PDF-specificatie en de broncode lezen om dit onder de knie te krijgen.

Dit kost vooraf meer moeite. Maar het werkt voor elke PDF die een gebruiker uploadt. Pixelgebaseerde tools werken alleen voor de weinige bestanden in je testsuite.

Bouw een echte extractor, geen demo.

Bron: https://dev.to/bonzai2carn/stop-parsing-pdfs-at-render-time-a-better-architecture-for-structured-extraction-5fb8

𝗦𝘁𝗼𝗽 𝗣𝗮𝗿𝘀𝗶𝗻𝗴 𝗣𝗗𝗙𝘀 𝗮𝘁 𝗥𝗲𝗻𝗱𝗲𝗿 𝗧𝗶𝗺𝗲

Continue reading

𝗖𝗼𝗹𝗱𝗙𝘂𝘀𝗶𝗼𝗻 𝗣𝗗𝗙 𝗦𝗰𝗮𝗹𝗶𝗻𝗴

𝗦𝗰𝗮𝗹𝗲 𝗬𝗼𝘂𝗿 𝗖𝗼𝗹𝗱𝗙𝘂𝘀𝗶𝗼𝗻 𝗣𝗗𝗙 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

𝗧𝗵𝗲 𝗗𝗲𝗮𝘁𝗵 𝗼𝗳 𝘁𝗵𝗲 𝗙𝗿𝗼𝗻𝘁 𝗘𝗻𝗱

𝗔𝗜 𝗖𝗼𝗱𝗲 𝗥𝗲𝘃𝗶𝗲𝘄 𝗜𝘀 𝗔 𝗥𝗼𝘂𝘁𝗶𝗻𝗴 𝗣𝗿𝗼𝗯𝗹𝗲𝗺

𝗦𝘁𝗼𝗽 𝗣𝗮𝗿𝘀𝗶𝗻𝗴 𝗣𝗗𝗙𝘀 𝗮𝘁 𝗥𝗲𝗻𝗱𝗲𝗿 𝗧𝗶𝗺𝗲