Хватит парсить PDF во время рендеринга

📅3 hours ago⏱2 min read

In this article

𝗦𝘁𝗼𝗽 𝗣𝗮𝗿𝘀𝗶𝗻𝗴 𝗣𝗗𝗙𝘀 𝗮𝘁 𝗥𝗲𝗻𝗱𝗲𝗿 𝗧𝗶𝗺𝗲

Most developers build PDF extraction tools the wrong way.

They try to guess document structure from the visual output. They render a page to a canvas and look at pixel positions. They use computer vision to find columns or tables.

This approach is backwards.

A PDF already contains the structure you need in the operator stream.

A table is not just a set of pixels. It is a set of path operators like moveTo, lineTo, and rectangle. Zone boundaries are encoded in the CTM stack. You do not need to reconstruct what is already there.

Stop using visual heuristics. Use the source data.

I previously tried using De Casteljau subdivision for bounding boxes. I rejected it during testing.

De Casteljau is a subdivision algorithm. You split curves until the segments are small enough. This works for rendering, but it is bad for bounding boxes.

You have to choose a tolerance. If the tolerance is too loose, the box is wrong. If it is too tight, you waste resources on recursion. There is a better way. An analytical solution using the quadratic formula is exact. It does not recurse. It does not allocate segments.

The same logic applies to zone detection.

Many tools calculate zone boundaries by finding the midpoint between two text groups. This is a visual guess. It is not structural.

If you use midpoints, sub-pixel rounding will place regions in the wrong zones.

The fix is simple. Use the top edge of the bounding box. A region belongs to a zone based on where it starts. Use the actual Y-coordinate of the top edge.

Building a real PDF extractor is harder. You must:

Read the operator stream instead of just text content.
Build a CTM stack to track matrix state.
Classify subpaths geometrically.
Emit segments with provenance.

This is more work than pixel-based guessing. But it produces deterministic results.

A pixel-based tool gives different results at 100% zoom than it does at 150% zoom. It is pattern-matching visual artifacts, not extracting structure.

If you do not parse the operator stream, you are building a demo. It might work on your test files, but it will fail on real user uploads.

The path through the operator stream is difficult. You must understand the fill and stroke state machines and the PDF specification. But you only have to learn it once. Then it works for every PDF.

Перестаньте парсить PDF во время рендеринга: более совершенная архитектура для структурированного извлечения данных

Многие разработчики совершают одну и ту же ошибку: они пытаются извлечь данные из PDF-файлов непосредственно в момент их отображения или обработки. Это архитектурная ошибка, которая ведет к задержкам, нестабильности и трудностям при масштабировании.

В этой статье мы разберем, почему подход «парсинг при рендеринге» не работает и как построить надежную архитектуру для извлечения структурированных данных.

Проблема: PDF — это не формат данных

Главная проблема заключается в самой природе PDF. PDF был разработан для визуального представления, а не для хранения структурированных данных.

В PDF-файле нет информации о том, что текст является «заголовком», «параграфом» или «ячейкой таблицы». Вместо этого файл содержит инструкции о том, в каких координатах на странице должен быть отрисован конкретный символ или глиф.

Когда вы пытаетесь извлечь данные из такого формата «на лету», вы фактически пытаетесь восстановить логическую структуру из визуальных подсказок. Это крайне сложная и непредсказуемая задача.

Ловушка «времени рендеринга» (Render-time)

Когда процесс извлечения данных встроен в цикл рендеринга (например, когда пользователь открывает документ и система пытается сразу выдать структурированный отчет), возникают следующие проблемы:

Высокая задержка (Latency): Анализ макета, OCR и работа с LLM требуют значительных вычислительных ресурсов и времени. Пользователь не должен ждать завершения тяжелых вычислений только для того, чтобы увидеть интерфейс.
Недетерминированность: Результат парсинга может меняться в зависимости от сложности конкретного файла, что делает поведение системы нестабильным.
Трудности масштабирования: Если каждый запрос на чтение вызывает тяжелый процесс парсинга, ваша система быстро упрется в потолок производительности.

Лучшая архитектура: Асинхронный конвейер извлечения

Вместо того чтобы парсить PDF в момент запроса, необходимо разделить процесс на два этапа: извлечение данных и их потребление.

Правильная архитектура строится вокруг асинхронного конвейера (pipeline), который преобразует неструктурированный PDF в структурированный формат (например, JSON) до того, как данные понадобятся пользователю.

Этапы конвейера

1. Прием данных (Ingestion)

Как только PDF-файл загружается в систему, он попадает в очередь на обработку.

2. Конвейер извлечения (Extraction Pipeline)

Это сердце системы. Он состоит из нескольких последовательных шагов:

Анализ макета (Layout Analysis): Определение зон текста, таблиц, изображений и заголовков.
OCR (Optical Character Recognition): Если PDF является сканом, необходимо преобразовать изображения в текст.
Извлечение с помощью LLM (LLM-based Extraction): Использование больших языковых моделей для преобразования распознанного текста в строго определенную схему данных (например, JSON согласно заданной схеме).

3. Структурированное хранение (Structured Storage)

Результат извлечения сохраняется в базу данных в структурированном виде. Теперь у вас есть не просто «файл», а набор данных, по которым можно осуществлять поиск, фильтрацию и аналитику.

4. Потребление (Consumption)

Когда пользователю или приложению нужны данные, они запрашиваются из базы данных. Это происходит мгновенно, так как вся тяжелая работа уже выполнена.

Преимущества такого подхода

Скорость: Рендеринг происходит мгновенно, так как данные уже готовы.
Надежность: Ошибки парсинга можно отследить, исправить и перезапустить процесс обработки без влияния на конечного пользователя.
Масштабируемость: Вы можете масштабировать вычислительные мощности для конвейера извлечения отдельно от API, обслуживающего пользователей.
Поисковая оптимизация: Структурированные данные позволяют легко реализовать полнотекстовый поиск и сложную аналитику.

Заключение

Перестаньте относиться к PDF как к источнику данных, доступному в реальном времени. Относитесь к нему как к сырому материалу, который требует предварительной обработки. Разделив извлечение и рендеринг, вы создадите систему, которая будет работать быстро, предсказуемо и масштабируемо.

Хватит парсить PDF во время рендеринга

Перестаньте парсить PDF во время рендеринга: более совершенная архитектура для структурированного извлечения данных

Проблема: PDF — это не формат данных

Ловушка «времени рендеринга» (Render-time)

Лучшая архитектура: Асинхронный конвейер извлечения

Этапы конвейера

1. Прием данных (Ingestion)

2. Конвейер извлечения (Extraction Pipeline)

3. Структурированное хранение (Structured Storage)

4. Потребление (Consumption)

Преимущества такого подхода

Заключение

Continue reading

𝗖𝗼𝗹𝗱𝗙𝘂𝘀𝗶𝗼𝗻 𝗣𝗗𝗙 𝗦𝗰𝗮𝗹𝗶𝗻𝗴

𝗦𝗰𝗮𝗹𝗲 𝗬𝗼𝘂𝗿 𝗖𝗼𝗹𝗱𝗙𝘂𝘀𝗶𝗼𝗻 𝗣𝗗𝗙 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

𝗔𝗜 𝗖𝗼𝗱𝗲 𝗥𝗲𝘃𝗶𝗲𝘄 𝗜𝘀 𝗔 𝗥𝗼𝘂𝘁𝗶𝗻𝗴 𝗣𝗿𝗼𝗯𝗹𝗲𝗺

𝗔𝗰𝗰𝗲𝘀𝘀𝗶𝗯𝗶𝗹𝗶𝘁𝘆 𝗙𝗶𝗿𝘀𝘁 𝗪𝗲𝗯 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗺𝗲𝗻𝘁

Хватит парсить PDF во время рендеринга