What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

Erste Schritte mit PDF Oxide (Rust)

PDF Oxide ist das schnellste Rust-Crate für PDF-Verarbeitung mit integrierter Textextraktion — 0,8 ms im Mittel, 100 % Trefferquote bei 3.830 PDFs. Eine Bibliothek für Extraktion, Erstellung und Bearbeitung.

Installation

Fügen Sie pdf_oxide in Ihre Cargo.toml ein:

[dependencies]
pdf_oxide = "0.3"

Feature-Flags

Aktivieren Sie nur die Funktionen, die Sie tatsächlich brauchen:

# Standard -- Textextraktion, Erstellung, Bearbeitung
pdf_oxide = "0.3"

# Seiten als Bilder rendern
pdf_oxide = { version = "0.3", features = ["rendering"] }

# Barcode-Erzeugung
pdf_oxide = { version = "0.3", features = ["barcodes"] }

# Digitale Signaturen
pdf_oxide = { version = "0.3", features = ["signatures"] }

# Office-Konvertierung (DOCX, XLSX, PPTX)
pdf_oxide = { version = "0.3", features = ["office"] }

# Alles
pdf_oxide = { version = "0.3", features = ["full"] }

PDF öffnen

Laden Sie eine Datei mit PdfDocument::open() und lesen Sie die Metadaten aus.

use pdf_oxide::PdfDocument;

let doc = PdfDocument::open("research-paper.pdf")?;
println!("Pages: {}", doc.page_count());
println!("PDF version: {}", doc.version());

Textextraktion

Nur Text

use pdf_oxide::PdfDocument;

let doc = PdfDocument::open("report.pdf")?;
let text = doc.extract_text(0)?;
println!("{text}");

Text-Spans

extract_spans() liefert einen Vec<TextSpan> — jeder Eintrag enthält die Schriftmetadaten für einen Lauf gleich formatierten Textes.

use pdf_oxide::PdfDocument;

let doc = PdfDocument::open("paper.pdf")?;
let spans = doc.extract_spans(0)?;

for span in &spans {
    println!("'{}' at ({:.1}, {:.1}) font={} size={:.1}",
        span.text, span.x, span.y, span.font_name, span.font_size);
}

Felder von TextSpan:

Feld	Typ	Beschreibung
`text`	`String`	Der Textinhalt
`x`	`f64`	Horizontale Position in Punkten
`y`	`f64`	Vertikale Position in Punkten
`font_name`	`String`	PostScript-Schriftname
`font_size`	`f64`	Schriftgröße in Punkten
`bbox`	`Rect`	Begrenzungsrechteck

Zeichenweise Extraktion

extract_chars() liefert einen Vec<TextChar> mit exakter Position jedes einzelnen Zeichens.

use pdf_oxide::PdfDocument;

let doc = PdfDocument::open("paper.pdf")?;
let chars = doc.extract_chars(0)?;

for ch in chars.iter().take(10) {
    println!("'{}' at ({:.1}, {:.1}) size={:.1} font={}",
        ch.char, ch.x, ch.y, ch.font_size, ch.font_name);
}

Felder von TextChar:

Feld	Typ	Beschreibung
`char`	`char`	Das Unicode-Zeichen
`x`	`f64`	Horizontale Position in Punkten
`y`	`f64`	Vertikale Position in Punkten
`font_size`	`f64`	Schriftgröße in Punkten
`font_name`	`String`	PostScript-Schriftname
`bbox`	`Rect`	Begrenzungsrechteck

Markdown-Konvertierung

Konvertieren Sie eine Seite in Markdown, mit konfigurierbaren Optionen.

use pdf_oxide::PdfDocument;
use pdf_oxide::converters::ConversionOptions;

let doc = PdfDocument::open("paper.pdf")?;
let options = ConversionOptions { detect_headings: true, ..Default::default() };
let md = doc.to_markdown(0, &options)?;
println!("{md}");

HTML-Konvertierung

use pdf_oxide::PdfDocument;

let doc = PdfDocument::open("paper.pdf")?;
let html = doc.to_html(0)?;
println!("{html}");

Bildextraktion

extract_images() liefert Metadaten und Rohdaten aller Bilder einer Seite — einschließlich Bilder aus Content-Streams und verschachtelten Form-XObjects.

use pdf_oxide::PdfDocument;

let doc = PdfDocument::open("brochure.pdf")?;
let images = doc.extract_images(0)?;

for (i, img) in images.iter().enumerate() {
    println!("Image {i}: {}x{} {} {}bpc ({} bytes)",
        img.width, img.height, img.color_space,
        img.bits_per_component, img.data.len());
}

Bilder direkt auf die Platte schreiben mit extract_images_to_files():

let doc = PdfDocument::open("brochure.pdf")?;
let paths = doc.extract_images_to_files(0, "output_dir")?;
for path in &paths {
    println!("Saved: {}", path.display());
}

PDF-Erstellung

Factory-Methoden

Der Typ Pdf stellt komfortable Factory-Methoden bereit.

use pdf_oxide::api::Pdf;

let mut pdf = Pdf::from_markdown("# Hello World\n\nThis is a PDF.")?;
pdf.save("output.pdf")?;

let mut pdf = Pdf::from_html("<h1>Invoice</h1><p>Amount: $42</p>")?;
pdf.save("invoice.pdf")?;

let mut pdf = Pdf::from_text("Plain text content.")?;
pdf.save("notes.pdf")?;

let mut pdf = Pdf::from_image("scan.jpg")?;
pdf.save("scan.pdf")?;

Fluent-API mit PdfBuilder

Für volle Kontrolle über Metadaten, Seitenformat und Ränder:

use pdf_oxide::api::PdfBuilder;
use pdf_oxide::writer::PageSize;

let mut pdf = PdfBuilder::new()
    .title("Annual Report")
    .author("Acme Corp")
    .page_size(PageSize::A4)
    .margins(72.0, 72.0, 72.0, 72.0)
    .font_size(11.0)
    .from_markdown("# Annual Report\n\n...")?;

pdf.save("annual-report.pdf")?;

Low-Level-API mit DocumentBuilder

Für pixelgenaue Platzierung von Text, Formen und Bildern:

use pdf_oxide::writer::DocumentBuilder;

let mut builder = DocumentBuilder::new();
builder.add_page(612.0, 792.0)
    .text("Hello, world!", 72.0, 720.0, 12.0)
    .rect(100.0, 600.0, 200.0, 50.0)
    .image_at("logo.png", 400.0, 700.0, 100.0, 50.0)?;

builder.save("custom.pdf")?;

Suche

Durchsuchen Sie das gesamte Dokument oder steuern Sie das Verhalten feingranular.

use pdf_oxide::api::Pdf;

let pdf = Pdf::open("manual.pdf")?;

// Einfache Suche über alle Seiten
let results = pdf.search("configuration")?;
for r in &results {
    println!("Page {}: '{}' at ({:.0}, {:.0})", r.page, r.text, r.x, r.y);
}

use pdf_oxide::api::{Pdf, SearchOptions};

let pdf = Pdf::open("manual.pdf")?;

let opts = SearchOptions {
    case_sensitive: false,
    whole_word: true,
    max_results: Some(50),
    ..Default::default()
};
let results = pdf.search_with_options("configuration", &opts)?;

Bearbeitung

DocumentEditor

Öffnen Sie ein bestehendes PDF für strukturelle Änderungen wie Seitendrehung oder Formularfelder.

use pdf_oxide::api::Pdf;

let mut pdf = Pdf::open_editor("form-template.pdf")?;

// Seite drehen
pdf.rotate_page(0, 90)?;

// Formularfeld hinzufügen
pdf.add_text_field("name", [100.0, 700.0, 300.0, 720.0])?;
pdf.add_checkbox("agree", [100.0, 650.0, 120.0, 670.0], false)?;

pdf.save("modified.pdf")?;

DOM-ähnliche Seitenbearbeitung

Navigieren Sie durch Seitenelemente und ändern Sie Text direkt an Ort und Stelle.

use pdf_oxide::api::Pdf;

let mut pdf = Pdf::open("document.pdf")?;
let mut page = pdf.page(0)?;

// Textelemente finden
for t in page.find_text_containing("Draft") {
    println!("Found '{}' at {:?}", t.text(), t.bbox());
}

// Text ersetzen
let matches = page.find_text_containing("Draft");
for t in &matches {
    page.set_text(t.id(), "Final")?;
}

pdf.save_page(page)?;
pdf.save("updated.pdf")?;

Fehlerbehandlung

Alle fehlschlagbaren Operationen liefern Result<T, PdfError> zurück. Das Enum PdfError deckt die wichtigsten Fehlerfälle ab.

use pdf_oxide::PdfDocument;
use pdf_oxide::PdfError;

fn extract(path: &str) -> Result<String, PdfError> {
    let doc = PdfDocument::open(path)?;
    doc.extract_text(0)
}

match extract("file.pdf") {
    Ok(text) => println!("{text}"),
    Err(PdfError::Io(e)) => eprintln!("I/O error: {e}"),
    Err(PdfError::Parse(msg)) => eprintln!("Parse error: {msg}"),
    Err(PdfError::Password) => eprintln!("Password required"),
    Err(PdfError::PageOutOfRange { index, count }) => {
        eprintln!("Page {index} does not exist ({count} pages total)");
    }
    Err(e) => eprintln!("Error: {e}"),
}

Varianten von PdfError:

Variante	Beschreibung
`Io`	Fehler beim Dateisystem oder I/O
`Parse`	Ungültige PDF-Struktur
`Password`	Dokument ist verschlüsselt, es wurde kein Passwort übergeben
`PageOutOfRange`	Angeforderter Seitenindex liegt außerhalb des Bereichs

Nächste Schritte

Python — Schnellstart – PDF Oxide aus Python verwenden
Textextraktion – detaillierte Extraktionsoptionen und Rezepte
PDF-Erstellung – fortgeschrittene Erstellung mit PdfBuilder, Verschlüsselung und Metadaten
Bearbeitung – bestehende PDFs ändern, Anmerkungen und Formularfelder
API-Referenz – vollständige API-Dokumentation