What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

Von pdfminer.six zu PDF Oxide migrieren

Eine vollständige Anleitung für den Umstieg von pdfminer (pdfminer.six) auf PDF Oxide. Alle APIs, die Sie derzeit verwenden, und deren Ersatz werden behandelt.

Warum von pdfminer wechseln?

Vier überzeugende Gründe für die Migration:

Etwa 30-mal schneller — pdfminer ist die langsamste der gängigen Python-PDF-Bibliotheken. PDF Oxide verarbeitet durchschnittlich 0,8 ms pro Seite, pdfminer benötigt Dutzende Millisekunden. Stapelverarbeitungen, die Minuten dauerten, werden in Sekunden erledigt.
Aktive Wartung — pdfminer.six wird selten aktualisiert und hat eine große Anzahl offener Issues. PDF Oxide wird aktiv entwickelt mit regelmäßigen Releases.
Alles-in-einem — pdfminer kann nur Text extrahieren. PDF Oxide erstellt auch PDFs, bearbeitet sie, rendert Seiten als Bilder, extrahiert Bilder, verarbeitet Formulare und konvertiert in Markdown/HTML.
Keine Konfiguration nötig — pdfminer erfordert manuelle LAParams-Anpassung (word_margin, line_margin, char_margin) für akzeptable Ergebnisse. PDF Oxide erkennt das Layout automatisch.

Schritt 1: Installation

pip install pdf_oxide
pip uninstall pdfminer.six  # optional

Schritt 2: Imports ersetzen

# Vorher
from pdfminer.high_level import extract_text, extract_pages
from pdfminer.layout import LAParams

# Nachher
from pdf_oxide import PdfDocument

Schritt 3: API-Zuordnungstabelle

Aufgabe	pdfminer	PDF Oxide
Text extrahieren	`extract_text("file.pdf")`	`PdfDocument("file.pdf").extract_text(0)`
Seiten extrahieren	`extract_pages("file.pdf")`	Seitenweise mit `doc.extract_text(i)`
Layoutanalyse	`LAParams()`-Konfiguration	Integrierte Layouterkennung
Zeichenpositionen	`LTChar`-Objekte	`doc.extract_chars(0)`
Verschlüsseltes PDF	Eingeschränkt (AES-256 schlägt fehl)	Volle Unterstützung
In Markdown	Nicht unterstützt	`doc.to_markdown(0)`
Formularfelder	Nicht unterstützt	`doc.get_form_fields()`

Schritt 4: Gängige Musteränderungen

Einfache Textextraktion

extract_text von pdfminer verarbeitet das gesamte Dokument auf einmal. PDF Oxide bietet seitenweise Kontrolle:

# pdfminer — gesamtes Dokument auf einmal
from pdfminer.high_level import extract_text
text = extract_text("report.pdf")
print(text)

# PDF Oxide — seitenweise Kontrolle
from pdf_oxide import PdfDocument
doc = PdfDocument("report.pdf")
for i in range(doc.page_count()):
    text = doc.extract_text(i)
    print(text)

Layoutanalyse

pdfminer erfordert manuelle LAParams-Konfiguration. PDF Oxide erledigt es automatisch:

# pdfminer — manuelle Layoutkonfiguration
from pdfminer.high_level import extract_text
from pdfminer.layout import LAParams

params = LAParams(
    word_margin=0.1,
    line_margin=0.5,
    char_margin=2.0,
    boxes_flow=0.5,
)
text = extract_text("report.pdf", laparams=params)

# PDF Oxide — automatische Layouterkennung
from pdf_oxide import PdfDocument
doc = PdfDocument("report.pdf")
text = doc.extract_text(0)  # Layout wird automatisch verarbeitet

Zeichenweise Extraktion

pdfminer verwendet einen komplexen Baum von Layout-Objekten. PDF Oxide gibt eine flache Liste zurück:

# pdfminer — Layout-Baum traversieren
from pdfminer.high_level import extract_pages
from pdfminer.layout import LTChar, LTTextBox

for page_layout in extract_pages("report.pdf"):
    for element in page_layout:
        if isinstance(element, LTTextBox):
            for line in element:
                for char in line:
                    if isinstance(char, LTChar):
                        print(f"{char.get_text()} at ({char.x0}, {char.y0})")

# PDF Oxide — flache Zeichenliste
from pdf_oxide import PdfDocument
doc = PdfDocument("report.pdf")
for c in doc.extract_chars(0):
    print(f"{c.char} at ({c.x}, {c.y})")

Verschlüsselte PDFs

pdfminer bietet eingeschränkte Verschlüsselungsunterstützung und scheitert bei AES-256-Dateien:

# pdfminer — scheitert bei vielen verschlüsselten PDFs
from pdfminer.high_level import extract_text
text = extract_text("encrypted.pdf", password="password")
# Kann bei AES-256-verschlüsselten Dateien einen Fehler auslösen

# PDF Oxide — volle Verschlüsselungsunterstützung
from pdf_oxide import PdfDocument
doc = PdfDocument("encrypted.pdf", password="password")
text = doc.extract_text(0)  # Funktioniert mit allen Verschlüsselungsmethoden

Markdown-Konvertierung (neue Funktion)

pdfminer unterstützt kein Markdown. PDF Oxide ermöglicht die einfache Einbindung von PDFs in LLM-Pipelines:

from pdf_oxide import PdfDocument

doc = PdfDocument("report.pdf")
for i in range(doc.page_count()):
    md = doc.to_markdown(i)
    print(md)

Formularfeldextraktion (neue Funktion)

pdfminer kann keine Formularfelder extrahieren. PDF Oxide schon:

from pdf_oxide import PdfDocument

doc = PdfDocument("form.pdf")
fields = doc.get_form_fields()
for f in fields:
    print(f"{f.name}: {f.value}")

Seitenrendering (neue Funktion)

pdfminer hat keine Rendering-Funktion. PDF Oxide kann Seiten als Bilder rendern:

from pdf_oxide import PdfDocument

doc = PdfDocument("report.pdf")
png_bytes = doc.render_page(0, dpi=150)
with open("page.png", "wb") as f:
    f.write(png_bytes)

Wichtige Unterschiede

Keine LAParams-Anpassung nötig — PDF Oxide verarbeitet das Layout automatisch. Die Konfiguration von word_margin, line_margin usw. entfällt.
Geschwindigkeit — pdfminer ist die langsamste Python-PDF-Bibliothek. PDF Oxide ist etwa 30-mal schneller.
Alles-in-einem — pdfminer kann nur extrahieren. PDF Oxide erstellt, bearbeitet und rendert auch PDFs.

Schritt 5: Migration testen

Führen Sie Ihre vorhandenen Testdateien mit beiden Bibliotheken aus und vergleichen Sie die Ausgaben:

from pdf_oxide import PdfDocument

doc = PdfDocument("your-test-file.pdf")

# Textextraktion überprüfen
text = doc.extract_text(0)
print(text[:500])

# Seitenanzahl überprüfen
print(f"Pages: {doc.page_count()}")

# Formularfelder überprüfen (falls zutreffend)
fields = doc.get_form_fields()
for f in fields:
    print(f"{f.name}: {f.value}")