What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

Einstieg in PDF Oxide (Go)

PDF Oxide ist die schnellste PDF-Bibliothek für Go: 0,8 ms durchschnittliche Textextraktion, 5× schneller als PyMuPDF, 15× schneller als pypdf, 100 % Trefferquote auf 3.830 PDFs. Ein Modul für Extraktion, Erstellung und Bearbeitung. Lesezugriffe sind über sync.RWMutex goroutine-sicher. Lizenz: MIT / Apache-2.0.

Installation

Seit v0.3.38 stehen zwei Backends zur Wahl:

Variante A — CGo (statisch gelinkt, Standard)

go get github.com/yfedoseev/pdf_oxide/go
go run github.com/yfedoseev/pdf_oxide/go/cmd/install@latest

Benötigt Go 1.21+ mit CGO_ENABLED=1 (die Standardeinstellung) sowie eine C-Toolchain im PATH. Volle API-Abdeckung. Der Installer lädt ein pdf_oxide-go-ffi-<platform>.tar.gz-Statikarchiv, prüft die SHA-256-Summe und gibt die zu exportierenden CGO_CFLAGS / CGO_LDFLAGS aus. Der Rust-Kern wird statisch gelinkt — das resultierende Binary ist vollständig eigenständig und braucht zur Laufzeit kein LD_LIBRARY_PATH, DYLD_LIBRARY_PATH oder PATH-Setup. Einfach go build und ausliefern.

Variante B — purego (ohne C-Toolchain, `CGO_ENABLED=0`)

go get github.com/yfedoseev/pdf_oxide/go
go run github.com/yfedoseev/pdf_oxide/go/cmd/install@latest -shared

Neu in v0.3.38 über ebitengine/purego. Der Installer lädt eine pdf_oxide-go-ffi-shared-<platform>.tar.gz-Cdylib (libpdf_oxide.so / .dylib / .dll) und gibt die zu exportierenden Umgebungsvariablen aus:

export CGO_ENABLED=0
export PDF_OXIDE_LIB_PATH="$HOME/.cache/pdf_oxide/v0.3.38/lib/linux_amd64/libpdf_oxide.so"

Die Backend-Wahl erfolgt automatisch über Gos eingebautes cgo-Build-Tag: //go:build cgo → CGo-API, //go:build !cgo → purego.

Purego-Umfang (was unter !cgo kompiliert): PdfDocument öffnen (Pfad / Bytes / Passwort), Seitenzahl, Version, Text- / Markdown- / HTML- / Plain-Text-Extraktion, Page-API, Fonts, Anmerkungen, Seitenelemente, Suche, Seitenabmessungen, Logging sowie PdfCreator.FromMarkdown / .FromHtml / .FromText für Test-Fixtures.

Nur unter CGo (Kompilierfehler unter !cgo): DocumentEditor, DocumentBuilder + FluentPageBuilder + EmbeddedFont, Rendering (RenderPage, RenderPageZoom, RenderThumbnail, RenderPageRegion, RenderPageFit), Barcodes (GenerateQRCode, GenerateBarcode), Signaturen (Signatures, Signature.Verify), TSA (TsaClient), OCR (OcrEngine) sowie SetFormFieldValue / FlattenForms.

Installer-Flags

Flag	Standard	Zweck
`-version`	im Modul hinterlegte Version	Auf ein bestimmtes Release festnageln
`-dir`	`os.UserCacheDir()/pdf_oxide/v<ver>`	Installationsverzeichnis überschreiben
`-shared`	aus	Cdylib (purego-Backend) statt Statiklib laden
`-write-flags`	leer (nur Ausgabe der Variablen)	Verzeichnis für generiertes `cgo_flags.go`
`-env-only`	aus	Kein Download; nur Variablen für bestehende Installation ausgeben
`-skip-checksum`	aus	SHA-256-Prüfung überspringen (nicht empfohlen)

Cache-Pfade (ab v0.3.38)

Das Installationsverzeichnis ist nach os.UserCacheDir() umgezogen — passend zu Gos eigener GOCACHE-Konvention:

Betriebssystem	Pfad
Linux	`$XDG_CACHE_HOME/pdf_oxide` bzw. `~/.cache/pdf_oxide`
macOS	`~/Library/Caches/pdf_oxide`
Windows	`%LocalAppData%\pdf_oxide`

Upgrade von v0.3.30 – v0.3.37: Der erste go build scheitert beim Linken (undefined reference to pdf_document_open …), bis der Installer einmal in den neuen Pfad läuft. Das alte Verzeichnis ~/.pdf_oxide/ wird nicht automatisch migriert — bei Bedarf von Hand löschen.

Monorepo- oder Quellbaum-Builds: Fügen Sie -tags pdf_oxide_dev hinzu, damit CGo auf ein lokales target/release/libpdf_oxide.a zeigt — der Installer wird dann nicht benötigt.

Unterstützte vorgebaute Plattformen: Linux x64/arm64, macOS x64/arm64 (Apple Silicon) sowie Windows x64 (über x86_64-pc-windows-gnu).

PDF öffnen

package main

import (
    "fmt"
    "log"

    pdfoxide "github.com/yfedoseev/pdf_oxide/go"
)

func main() {
    doc, err := pdfoxide.Open("research-paper.pdf")
    if err != nil {
        log.Fatal(err)
    }
    defer doc.Close()

    count, _ := doc.PageCount()
    major, minor, _ := doc.Version()
    fmt.Printf("%d Seiten, PDF %d.%d\n", count, major, minor)
}

Page-API

Seit v0.3.34 können Sie seitenorientiert arbeiten. doc.Page(i) liefert einen schlanken *Page-Handle, der an das übergeordnete Dokument weiterleitet.

page, _ := doc.Page(0)
text, _ := page.Text()
md, _   := page.Markdown()

pages, _ := doc.Pages()
for _, p := range pages {
    t, _ := p.Text()
    fmt.Printf("--- Seite %d ---\n%s\n", p.Index+1, t)
}

Jede Page bietet Text(), Markdown(), Html(), PlainText(), Chars(), Words(), Lines(), Tables(), Images(), Paths(), Fonts(), Annotations(), Info(), Search(), NeedsOcr() und TextWithOcr().

Textextraktion

Einzelne Seite

text, err := doc.ExtractText(0)
if err != nil {
    log.Fatal(err)
}
fmt.Println(text)

Alle Seiten

allText, err := doc.ExtractAllText()
if err != nil {
    log.Fatal(err)
}
fmt.Println(allText)

Seiten manuell durchlaufen

pages, _ := doc.Pages()
for _, p := range pages {
    text, err := p.Text()
    if err != nil {
        log.Printf("Seite %d: %v", p.Index, err)
        continue
    }
    fmt.Printf("--- Seite %d ---\n%s\n", p.Index+1, text)
}

Strukturierte Extraktion

words, _  := doc.ExtractWords(0)        // []Word
lines, _  := doc.ExtractTextLines(0)    // []TextLine
chars, _  := doc.ExtractChars(0)        // []Char
tables, _ := doc.ExtractTables(0)       // []Table — Zeilen + Zellen mit BBoxes (v0.3.34)
paths, _  := doc.ExtractPaths(0)        // []Path

for _, w := range words {
    fmt.Printf("%q bei (%.1f, %.1f)\n", w.Text, w.X, w.Y)
}

for _, t := range tables {
    fmt.Printf("%dx%d (Kopfzeile=%v)\n", t.RowCount, t.ColCount, t.HasHeader)
    for r := 0; r < t.RowCount; r++ {
        for c := 0; c < t.ColCount; c++ {
            fmt.Printf("%s\t", t.CellText(r, c))
        }
        fmt.Println()
    }
}

Regionsbasierte Extraktion:

region, _ := doc.ExtractTextInRect(0, 50, 700, 200, 50) // x, y, Breite, Höhe
words, _  := doc.ExtractWordsInRect(0, 50, 700, 200, 50)

Markdown-Konvertierung

md, err := doc.ToMarkdown(0)
if err != nil {
    log.Fatal(err)
}
fmt.Println(md)

// Alle Seiten
allMd, _ := doc.ToMarkdownAll()

HTML-Konvertierung

html, _  := doc.ToHtml(0)
allHtml, _ := doc.ToHtmlAll()

Bildextraktion

import "os"

images, err := doc.Images(0)
if err != nil {
    log.Fatal(err)
}

for i, img := range images {
    fmt.Printf("Bild %d: %dx%d %s %s %d bpc (%d Bytes)\n",
        i, img.Width, img.Height, img.Format, img.Colorspace, img.BitsPerComponent, len(img.Data))
    os.WriteFile(fmt.Sprintf("image_%d.%s", i, img.Format), img.Data, 0644)
}

Aus Bytes und Readern öffnen

// Aus Bytes
data, _ := os.ReadFile("document.pdf")
doc, err := pdfoxide.OpenFromBytes(data)

// Aus beliebigem io.Reader
doc, err := pdfoxide.OpenReader(someReader)

// Mit Passwort
doc, err := pdfoxide.OpenWithPassword("secure.pdf", "user-password")

PDF-Erstellung

// Aus Markdown (läuft auch unter purego)
pdf, _ := pdfoxide.FromMarkdown("# Hallo\n\nFließtext.")
defer pdf.Close()
pdf.Save("out.pdf")

// Aus HTML (läuft auch unter purego)
htmlPdf, _ := pdfoxide.FromHtml("<h1>Rechnung</h1><p>Betrag: $42</p>")
defer htmlPdf.Close()
htmlPdf.Save("invoice.pdf")

// Aus Text (läuft auch unter purego)
txt, _ := pdfoxide.FromText("Reines Textdokument.")
defer txt.Close()

// Ab hier nur noch unter CGo:

// Aus einem Bild
img, _ := pdfoxide.FromImage("photo.jpg")
defer img.Close()

// Mehrere PDFs zusammenführen
merged, _ := pdfoxide.Merge([]string{"a.pdf", "b.pdf"})
os.WriteFile("merged.pdf", merged, 0644)

DocumentBuilder (nur unter CGo, v0.3.38)

Die fluente DocumentBuilder-API steht in Go ab v0.3.38 zur Verfügung. Anmerkungen, AcroForm-Widgets (TextField, Checkbox, ComboBox, RadioGroup, PushButton), Grafik-Primitive (Rect, FilledRect, Line), eingebettete Fonts (CJK / Kyrillisch / Griechisch) und AES-256-Verschlüsselung sind alle hier zu Hause:

font, _ := pdfoxide.EmbeddedFontFromFile("DejaVuSans.ttf")
defer font.Close()

builder := pdfoxide.NewDocumentBuilder()
builder.RegisterEmbeddedFont("DejaVu", font)
builder.A4Page().
    Font("DejaVu", 12).At(72, 720).Text("Privet, mir!").
    Highlight(1.0, 1.0, 0.0).
    TextField("name", 150, 680, 200, 20, "Jane Doe").
    Checkbox("subscribe", 72, 650, 15, 15, true).
    Done()
_ = builder.SaveEncrypted("out.pdf", "user-pw", "owner-pw")

Die vollständige Methodenpalette (in allen Bindings identisch) finden Sie unter DocumentBuilder Fluent API.

Rendering

Alle Rendering-APIs sind nur unter CGo verfügbar (Kompilierfehler unter CGO_ENABLED=0).

// Format: 0 = PNG, 1 = JPEG
img, err := doc.RenderPage(0, 0)
if err != nil {
    log.Fatal(err)
}
defer img.Close()
img.SaveToFile("page.png")

// Zoom (2×)
zoomed, _ := doc.RenderPageZoom(0, 2.0, 0)
defer zoomed.Close()

// Vorschaubild (200 px Breite)
thumb, _ := doc.RenderThumbnail(0, 200, 0)
defer thumb.Close()

// Zugeschnittener Ausschnitt (v0.3.38)
region, _ := doc.RenderPageRegion(0, 72, 200, 468, 300, 0)
defer region.Close()

// In eine Zielfläche einpassen (v0.3.38)
fitted, _ := doc.RenderPageFit(0, 1024, 768, 0)
defer fitted.Close()

Suche

// Alle Seiten durchsuchen (ohne Groß-/Kleinschreibung)
hits, _ := doc.SearchAll("configuration", false)
for _, r := range hits {
    fmt.Printf("Seite %d: %q bei (%.0f, %.0f)\n", r.Page, r.Text, r.X, r.Y)
}

// Eine einzelne Seite durchsuchen
pageHits, _ := doc.SearchPage(0, "configuration", false)

Bearbeiten

DocumentEditor ist nur unter CGo verfügbar. Für Metadaten, Seitenoperationen, Anmerkungen und Formulare verwenden Sie:

editor, err := pdfoxide.OpenEditor("in.pdf")
if err != nil {
    log.Fatal(err)
}
defer editor.Close()

// Metadaten — Feld für Feld
_ = editor.SetTitle("Quartalsbericht")
_ = editor.SetAuthor("Finanzabteilung")

// Oder mehrere Felder auf einmal setzen
_ = editor.ApplyMetadata(pdfoxide.Metadata{
    Title:   "Q1-2026-Bericht",
    Author:  "Finanzabteilung",
    Subject: "Ergebnisse",
})

// Seitenoperationen
_ = editor.SetPageRotation(0, 90)
_ = editor.MovePage(2, 0)
_ = editor.DeletePage(5)

// Formulare
_ = editor.SetFormFieldValue("employee.name", "Jane Doe")
_ = editor.FlattenForms()

// Speichern
_ = editor.Save("out.pdf")
_ = editor.SaveEncrypted("secret.pdf", "user", "owner")

Barcodes

Die Barcode-Erzeugung ist nur unter CGo verfügbar.

qr, _ := pdfoxide.GenerateQRCode("https://example.com", 0, 256)
defer qr.Close()
_ = os.WriteFile("qr.png", qr.PNGData(), 0644)

bc, _ := pdfoxide.GenerateBarcode("123456789", 0, 128)
defer bc.Close()

OCR

Mit dem Feature ocr aktivieren Sie OCR für gescannte Seiten:

go build -tags ocr ./...

ocr, _ := pdfoxide.NewOcrEngine()
defer ocr.Close()

if ocr.NeedsOcr(doc, 0) {
    text, _ := ocr.ExtractTextWithOcr(doc, 0)
    fmt.Println(text)
}

Ausführliche Rezepte finden Sie im OCR-Leitfaden.

Nebenläufigkeit

Lesezugriffe auf PdfDocument sind goroutine-sicher — mehrere Goroutinen dürfen sich ein Dokument teilen, um Seiten parallel zu extrahieren:

import "sync"

var wg sync.WaitGroup
count, _ := doc.PageCount()
out := make(chan string, count)

for i := 0; i < count; i++ {
    wg.Add(1)
    go func(page int) {
        defer wg.Done()
        text, err := doc.ExtractText(page)
        if err == nil {
            out <- text
        }
    }(i)
}

go func() { wg.Wait(); close(out) }()

for text := range out {
    _ = text
}

DocumentEditor serialisiert Schreibvorgänge intern, aber verteilen Sie unabhängige Änderungen nicht per Pipeline über mehrere Goroutinen — sammeln Sie Änderungen in einer einzigen Goroutine. Muster finden Sie im Nebenläufigkeits-Leitfaden.

Fehlerbehandlung

import "errors"

text, err := doc.ExtractText(0)
if err != nil {
    switch {
    case errors.Is(err, pdfoxide.ErrDocumentClosed):
        log.Print("Dokument ist geschlossen")
    case errors.Is(err, pdfoxide.ErrInvalidPageIndex):
        log.Print("Ungültiger Seitenindex")
    case errors.Is(err, pdfoxide.ErrExtractionFailed):
        log.Print("Extraktion fehlgeschlagen")
    default:
        log.Printf("unerwartet: %v", err)
    }
}

Verfügbare Sentinel-Fehler:

ErrInvalidPath        ErrDocumentNotFound   ErrInvalidFormat
ErrExtractionFailed   ErrParseError         ErrInvalidPageIndex
ErrSearchFailed       ErrInternal           ErrDocumentClosed
ErrEditorClosed       ErrCreatorClosed      ErrIndexOutOfBounds
ErrEmptyContent

Den numerischen Code und die Message lesen Sie mit errors.As aus:

var e *pdfoxide.Error
if errors.As(err, &e) {
    fmt.Printf("code=%d message=%s\n", e.Code, e.Message)
}

Nächste Schritte

Python-Einstieg — PDF Oxide in Python nutzen
Go-API-Referenz — vollständige API-Dokumentation
Nebenläufigkeits-Leitfaden — Muster für Goroutinen
Textextraktion — ausführliche Extraktionsoptionen
PDF-Erstellung — fortgeschrittene Erstellung
Paket auf pkg.go.dev — generierte API-Dokumente