𝗦𝘁𝗼𝗽 𝗣𝗮𝗿𝘀𝗶𝗻𝗴 𝗣𝗗𝗙𝘀 𝗮𝘁 𝗥𝗲𝗻𝗱𝗲𝗿 𝗧𝗶𝗺𝗲

📅3 hours ago⏱2 min read

In this article

Most developers build PDF extraction tools the wrong way.

They try to guess document structure from the visual output. They render a page to a canvas and look at pixel positions. They use computer vision to find columns or tables.

This approach is backwards.

A PDF already contains the structure you need in the operator stream.

A table is not just a set of pixels. It is a set of path operators like moveTo, lineTo, and rectangle. Zone boundaries are encoded in the CTM stack. You do not need to reconstruct what is already there.

Stop using visual heuristics. Use the source data.

I previously tried using De Casteljau subdivision for bounding boxes. I rejected it during testing.

De Casteljau is a subdivision algorithm. You split curves until the segments are small enough. This works for rendering, but it is bad for bounding boxes.

You have to choose a tolerance. If the tolerance is too loose, the box is wrong. If it is too tight, you waste resources on recursion. There is a better way. An analytical solution using the quadratic formula is exact. It does not recurse. It does not allocate segments.

The same logic applies to zone detection.

Many tools calculate zone boundaries by finding the midpoint between two text groups. This is a visual guess. It is not structural.

If you use midpoints, sub-pixel rounding will place regions in the wrong zones.

The fix is simple. Use the top edge of the bounding box. A region belongs to a zone based on where it starts. Use the actual Y-coordinate of the top edge.

Building a real PDF extractor is harder. You must:

Read the operator stream instead of just text content.
Build a CTM stack to track matrix state.
Classify subpaths geometrically.
Emit segments with provenance.

This is more work than pixel-based guessing. But it produces deterministic results.

A pixel-based tool gives different results at 100% zoom than it does at 150% zoom. It is pattern-matching visual artifacts, not extracting structure.

If you do not parse the operator stream, you are building a demo. It might work on your test files, but it will fail on real user uploads.

The path through the operator stream is difficult. You must understand the fill and stroke state machines and the PDF specification. But you only have to learn it once. Then it works for every PDF.

Hören Sie auf, PDFs zum Render-Time-Zeitpunkt zu parsen: Eine bessere Architektur für die strukturierte Extraktion

Wenn Sie eine RAG-Anwendung (Retrieval-Augmented Generation) bauen, stehen Sie wahrscheinlich vor einem Problem: Wie gehen Sie mit PDFs um?

Die meisten Entwickler folgen einem einfachen, aber ineffizienten Muster: Wenn ein Benutzer eine Frage stellt, suchen Sie das relevante Dokument, laden das PDF, parsen es und senden den Text an ein LLM.

Das ist das "Render-Time"-Parsing. Und es ist eine Sackgasse.

Das Problem mit dem "Render-Time"-Parsing

Beim Render-Time-Parsing findet die Extraktion der Daten erst statt, wenn sie benötigt werden. Das führt zu mehreren massiven Problemen:

Latenz: Das Parsen von PDFs – besonders wenn OCR (optische Zeichenerkennung) erforderlich ist – ist langsam. Wenn ein Benutzer auf eine Antwort wartet, möchte er nicht 10 Sekunden lang zusehen, wie ein PDF-Parser arbeitet.
Kosten: Wenn Sie jedes Mal, wenn eine Frage gestellt wird, das gesamte Dokument parsen oder durch ein LLM jagen, um die Struktur zu verstehen, explodieren Ihre API-Kosten.
Unzuverlässigkeit: PDFs sind notorisch schwierig zu parsen. Tabellen, Spalten und Kopfzeilen führen oft zu unstrukturiertem "Text-Salat", der die Qualität der RAG-Antworten drastisch verschlechtert.

Der bessere Weg: Extraktion zum Ingestion-Zeitpunkt

Anstatt PDFs erst bei der Abfrage zu verarbeiten, sollten Sie sie bereits bei der Aufnahme (Ingestion) in Ihr System verarbeiten.

Das Ziel ist es, das PDF einmalig in ein strukturiertes Format zu transformieren – am besten in sauberes Markdown oder JSON – und dieses Format in Ihrer Datenbank zu speichern.

Die neue Architektur

Eine moderne Architektur für die strukturierte Extraktion sieht so aus:

Ingestion Pipeline: Sobald ein Dokument hochgeladen wird, startet ein Prozess.
Strukturierte Extraktion: Anstatt nur Text zu extrahieren, nutzen Sie spezialisierte Tools (wie GyaanSetu), um die semantische Struktur zu verstehen. Was ist eine Überschrift? Was ist eine Tabellenzelle? Was ist eine Bildunterschrift?
Speicherung: Das Ergebnis wird als strukturiertes Dokument (z. B. Markdown) in einer Datenbank gespeichert. Gleichzeitig werden die Textabschnitte (Chunks) in eine Vektordatenbank für die semantische Suche indiziert.
Retrieval: Wenn der Benutzer eine Frage stellt, suchen Sie nicht in einem rohen PDF, sondern in den bereits vorverarbeiteten, strukturierten Daten.

Warum das funktioniert

Durch diesen Ansatz lösen Sie die Kernprobleme:

Geschwindigkeit: Die Suche erfolgt in bereits verarbeiteten Daten. Die Antwort erfolgt fast in Echtzeit.
Präzision: Da Sie Markdown oder JSON verwenden, behält das LLM den Kontext von Tabellen und Hierarchien bei. Ein LLM versteht eine Markdown-Tabelle viel besser als eine lose Ansammlung von Textzeilen aus einem PDF.
Skalierbarkeit: Die rechenintensive Arbeit wird einmalig beim Upload erledigt, nicht millionenfach bei jeder Abfrage.

Fazit

Wenn Sie ernsthafte KI-Anwendungen bauen, die auf Dokumenten basieren, müssen Sie die Trennung zwischen Datenaufnahme und Datenabfrage ernst nehmen. Hören Sie auf, PDFs zum Render-Time-Zeitpunkt zu parsen. Bauen Sie eine Ingestion-Pipeline, die strukturierte Daten liefert.

𝗦𝘁𝗼𝗽 𝗣𝗮𝗿𝘀𝗶𝗻𝗴 𝗣𝗗𝗙𝘀 𝗮𝘁 𝗥𝗲𝗻𝗱𝗲𝗿 𝗧𝗶𝗺𝗲

Hören Sie auf, PDFs zum Render-Time-Zeitpunkt zu parsen: Eine bessere Architektur für die strukturierte Extraktion

Das Problem mit dem "Render-Time"-Parsing

Der bessere Weg: Extraktion zum Ingestion-Zeitpunkt

Die neue Architektur

Warum das funktioniert

Fazit

Continue reading

𝗖𝗼𝗹𝗱𝗙𝘂𝘀𝗶𝗼𝗻 𝗣𝗗𝗙 𝗦𝗰𝗮𝗹𝗶𝗻𝗴

𝗦𝗰𝗮𝗹𝗲 𝗬𝗼𝘂𝗿 𝗖𝗼𝗹𝗱𝗙𝘂𝘀𝗶𝗼𝗻 𝗣𝗗𝗙 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

𝗔𝗜 𝗖𝗼𝗱𝗲 𝗥𝗲𝘃𝗶𝗲𝘄 𝗜𝘀 𝗔 𝗥𝗼𝘂𝘁𝗶𝗻𝗴 𝗣𝗿𝗼𝗯𝗹𝗲𝗺

𝗔𝗰𝗰𝗲𝘀𝘀𝗶𝗯𝗶𝗹𝗶𝘁𝘆 𝗙𝗶𝗿𝘀𝘁 𝗪𝗲𝗯 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗺𝗲𝗻𝘁

𝗦𝘁𝗼𝗽 𝗣𝗮𝗿𝘀𝗶𝗻𝗴 𝗣𝗗𝗙𝘀 𝗮𝘁 𝗥𝗲𝗻𝗱𝗲𝗿 𝗧𝗶𝗺𝗲