𝗦𝘁𝗼𝗽 𝗣𝗮𝗿𝘀𝗶𝗻𝗴 𝗣𝗗𝗙𝘀 𝗮𝘁 𝗥𝗲𝗻𝗱𝗲𝗿 𝗧𝗶𝗺𝗲

📅3 hours ago⏱1 min read

Acha Kuchambua PDF Wakati wa Render

Zana nyingi za mbele (frontend) za kutoa data kutoka kwenye PDF hushindwa.

Watengenezaji hujaribu kukisia muundo wa hati kutokana na matokeo ya picha (visual output). Huangalia piksel zilizochorwa (rendered pixels) ili kupata safu, majedwali, au orodha. Hutumia teknolojia ya kuona ya kompyuta (computer vision) au ukaribu wa piksel kuamua mahali sanduku linapoanzia.

Hii si njia sahihi ya kujenga.

PDF tayari ina data ya muundo iliyo wazi katika mtiririko wake wa amri (operator stream). Jedwali si kikundi tu cha piksel zilizo karibu. Linachorwa kwa amri maalum kama moveTo, lineTo, au rectangle. Mipaka unayotaka kupata tayari imewekwa (encoded) kwenye chanzo.

Ikiwa chujaji (extractor) wako unakupa safu tofauti wakati wa kukuza (zoom) 100% dhidi ya 150%, basi huchambui muundo. Unatafuta tu mifumo ya alama za picha (visual artifacts).

Acha kutumia mbinu za makadirio ya picha (visual heuristics). Anza kuchambua mtiririko wa amri (operator stream).

Kwa nini mtiririko wa amri (operator stream) ni bora zaidi:

Ni wa uhakika (deterministic). Unafanya kazi kwa njia ile ile bila kujali ukubwa (scale) au maelekezo ya fonti (font hinting).
Unatumia data halisi. Unatumia njia (paths) na uratibu (coordinates) halisi zilizowekwa na mtengenezaji.
Unaziepuka makosa ya hisabati. Kwa mfano, kutumia katikati ya maandishi ili kupata maeneo husababisha hitilafu za kulinganisha namba (rounding bugs). Kutumia ukingo wa juu halisi wa sanduku (bounding box) ndiyo njia pekee sahihi.

Njia ngumu ndiyo njia sahihi.

Lazima uelewe mfumo wa CTM stack. Lazima ufuatilie hali za matrix (matrix states) na uainishe njia ndogo (subpaths). Lazima usome maelezo ya PDF (PDF specification) na msimbo chanzo (source code) ili kuubobea.

Hii inahitaji juhudi zaidi mwanzoni. Lakini inafanya kazi kwa kila PDF ambayo mtumiaji anapakia. Zana zinazotegemea piksel hufanya kazi tu kwa faili chache zilizopo kwenye seti yako ya majaribio (test suite).

Jenga chujaji (extractor) halisi, siyo mfano (demo).

Chanzo: https://dev.to/bonzai2carn/stop-parsing-pdfs-at-render-time-a-better-architecture-for-structured-extraction-5fb8

𝗦𝘁𝗼𝗽 𝗣𝗮𝗿𝘀𝗶𝗻𝗴 𝗣𝗗𝗙𝘀 𝗮𝘁 𝗥𝗲𝗻𝗱𝗲𝗿 𝗧𝗶𝗺𝗲

Continue reading

𝗖𝗼𝗹𝗱𝗙𝘂𝘀𝗶𝗼𝗻 𝗣𝗗𝗙 𝗦𝗰𝗮𝗹𝗶𝗻𝗴

𝗦𝗰𝗮𝗹𝗲 𝗬𝗼𝘂𝗿 𝗖𝗼𝗹𝗱𝗙𝘂𝘀𝗶𝗼𝗻 𝗣𝗗𝗙 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

𝗧𝗵𝗲 𝗗𝗲𝗮𝘁𝗵 𝗼𝗳 𝘁𝗵𝗲 𝗙𝗿𝗼𝗻𝘁 𝗘𝗻𝗱

𝗔𝗜 𝗖𝗼𝗱𝗲 𝗥𝗲𝘃𝗶𝗲𝘄 𝗜𝘀 𝗔 𝗥𝗼𝘂𝘁𝗶𝗻𝗴 𝗣𝗿𝗼𝗯𝗹𝗲𝗺

𝗦𝘁𝗼𝗽 𝗣𝗮𝗿𝘀𝗶𝗻𝗴 𝗣𝗗𝗙𝘀 𝗮𝘁 𝗥𝗲𝗻𝗱𝗲𝗿 𝗧𝗶𝗺𝗲