𝗦𝘁𝗼𝗽 𝗣𝗮𝗿𝘀𝗶𝗻𝗴 𝗣𝗗𝗙𝘀 𝗮𝘁 𝗥𝗲𝗻𝗱𝗲𝗿 𝗧𝗶𝗺𝗲

📅3 hours ago⏱2 min read

𝗗𝗲𝗷𝗮 𝗱𝗲 𝗮𝗻𝗮𝗹𝗶𝘇𝗮𝗿 𝗣𝗗𝗙𝘀 𝗲𝗻 𝗲𝗹 𝗺𝗼𝗺𝗲𝗻𝘁𝗼 𝗱𝗲𝗹 𝗿𝗲𝗻𝗱𝗲𝗿𝗶𝘇𝗮𝗱𝗼

La mayoría de los desarrolladores construyen herramientas de extracción de PDF de la manera incorrecta.

Intentan adivinar la estructura del documento a partir de la salida visual. Renderizan una página en un canvas y observan las posiciones de los píxeles. Utilizan visión artificial para encontrar columnas o tablas.

Este enfoque es erróneo.

Un PDF ya contiene la estructura que necesitas en el flujo de operadores.

Una tabla no es solo un conjunto de píxeles. Es un conjunto de operadores de ruta como moveTo, lineTo y rectangle. Los límites de las zonas están codificados en la pila CTM. No necesitas reconstruir lo que ya está ahí.

Deja de usar heurísticas visuales. Usa los datos de origen.

Anteriormente intenté usar la subdivisión de De Casteljau

Source: https://dev.to/bonzai2carn/stop-parsing-pdfs-at-render-time-a-better-architecture-for-structured-extraction-5fb8

𝗦𝘁𝗼𝗽 𝗣𝗮𝗿𝘀𝗶𝗻𝗴 𝗣𝗗𝗙𝘀 𝗮𝘁 𝗥𝗲𝗻𝗱𝗲𝗿 𝗧𝗶𝗺𝗲

Continue reading

𝗖𝗼𝗹𝗱𝗙𝘂𝘀𝗶𝗼𝗻 𝗣𝗗𝗙 𝗦𝗰𝗮𝗹𝗶𝗻𝗴

𝗦𝗰𝗮𝗹𝗲 𝗬𝗼𝘂𝗿 𝗖𝗼𝗹𝗱𝗙𝘂𝘀𝗶𝗼𝗻 𝗣𝗗𝗙 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

𝗔𝗜 𝗖𝗼𝗱𝗲 𝗥𝗲𝘃𝗶𝗲𝘄 𝗜𝘀 𝗔 𝗥𝗼𝘂𝘁𝗶𝗻𝗴 𝗣𝗿𝗼𝗯𝗹𝗲𝗺

Desarrollo web centrado en la accesibilidad

𝗦𝘁𝗼𝗽 𝗣𝗮𝗿𝘀𝗶𝗻𝗴 𝗣𝗗𝗙𝘀 𝗮𝘁 𝗥𝗲𝗻𝗱𝗲𝗿 𝗧𝗶𝗺𝗲