What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

Node.js PDF-Bibliothek — PDF Oxide

PDF Oxide ist die schnellste PDF-Bibliothek für Node.js: 0,8 ms durchschnittliche Textextraktion, 5× schneller als PyMuPDF, 15× schneller als pypdf, 100 % Trefferquote bei 3.830 PDFs. Ein Paket für Extrahieren, Erstellen und Bearbeiten — inklusive TypeScript-Definitionen. Lizenz: MIT / Apache-2.0.

Sie setzen auf Browser, Deno, Bun oder Cloudflare Workers? Verwenden Sie stattdessen den WASM-Build — gleiche API, ohne Native-Binaries. Das N-API-Addon auf dieser Seite ist für Node.js und Electron.

Installation

npm install pdf-oxide

Voraussetzungen: Node.js 18 oder neuer. Keine Systemabhängigkeiten, keine Rust-Toolchain. Vorkompilierte .node-Addons für Linux (glibc + musl) x64/arm64, macOS x64/arm64 und Windows x64/arm64 werden automatisch über plattformspezifische optionalDependencies geladen — beim Installieren wird nichts kompiliert.

Ein PDF öffnen

JavaScript

const { PdfDocument } = require("pdf-oxide");

const doc = new PdfDocument("research-paper.pdf");
console.log(`Pages: ${doc.getPageCount()}`);

const { major, minor } = doc.getVersion();
console.log(`PDF version: ${major}.${minor}`);

doc.close();

TypeScript

import { PdfDocument } from "pdf-oxide";

const doc: PdfDocument = new PdfDocument("research-paper.pdf");
const pageCount: number = doc.getPageCount();
const { major, minor }: { major: number; minor: number } = doc.getVersion();
console.log(`${pageCount} pages, PDF ${major}.${minor}`);
doc.close();

Ab Node.js 22 können Sie mit using automatisch aufräumen lassen:

{
  using doc = new PdfDocument("report.pdf");
  const text = doc.extractText(0);
} // doc.close() wird automatisch aufgerufen

Page-API

Seit v0.3.34 ist PdfDocument iterierbar und doc.page(i) liefert ein PdfPage mit zwischengespeicherten width / height / rotation sowie seitenbezogenen Extraktionsmethoden.

const { PdfDocument } = require("pdf-oxide");

const doc = new PdfDocument("paper.pdf");
for (const page of doc) {
  console.log(`Page ${page.index}: ${page.width}x${page.height} (rotation ${page.rotation})`);
  const md = page.markdown();
  const tables = page.tables();       // Zeilen und Zellen mit BBoxes
}
doc.close();

Indexierung: doc.page(0), doc.page(-1) (letzte Seite). Methoden der Seite: text(), markdown(), html(), plainText(), words(), lines(), tables(), images(), paths(), annotations(), fonts(), search(query, caseSensitive).

Textextraktion

Einzelne Seite

JavaScript

const { PdfDocument } = require("pdf-oxide");

const doc = new PdfDocument("report.pdf");
const text = doc.extractText(0);
console.log(text);
doc.close();

TypeScript

import { PdfDocument } from "pdf-oxide";

const doc: PdfDocument = new PdfDocument("report.pdf");
const text: string = doc.extractText(0);
console.log(text);
doc.close();

Alle Seiten

const doc = new PdfDocument("book.pdf");
const pageCount = doc.getPageCount();

for (let i = 0; i < pageCount; i++) {
  console.log(`--- Page ${i + 1} ---`);
  console.log(doc.extractText(i));
}

doc.close();

Asynchrone Extraktion

Jede synchrone Methode hat ein *Async-Gegenstück, das auf dem libuv-Thread-Pool läuft. Nutzen Sie diese in HTTP-Handlern und sonstigem nebenläufigen Server-Code, damit die Extraktion die Event-Loop nicht blockiert.

const { PdfDocument } = require("pdf-oxide");

async function extract(path) {
  const doc = new PdfDocument(path);
  try {
    return await doc.extractTextAsync(0);
  } finally {
    doc.close();
  }
}

Siehe den Async-Leitfaden für Muster wie Promise.all-Fan-out über mehrere Seiten.

Strukturierte Extraktion

Daten auf Zeichen- und Span-Ebene inklusive Position und Font-Metadaten:

const chars = doc.extractChars(0);
for (const ch of chars.slice(0, 10)) {
  console.log(`'${ch.char}' at (${ch.x.toFixed(1)}, ${ch.y.toFixed(1)}) ` +
              `size=${ch.fontSize.toFixed(1)} font=${ch.fontName}`);
}

const spans = doc.extractSpans(0);
for (const span of spans) {
  console.log(`"${span.text}" font=${span.fontName} size=${span.fontSize}`);
}

Wort- und Zeilen-Extraktion mit einstellbarer Segmentierung:

const words = doc.extractWords(0);
const lines = doc.extractTextLines(0, { wordGapThreshold: 2.5, lineGapThreshold: 1.2 });

Markdown-Konvertierung

JavaScript

const md = doc.toMarkdown(0, { detectHeadings: true });
console.log(md);

// Alle Seiten
const allMd = doc.toMarkdownAll();

TypeScript

const md: string = doc.toMarkdown(0, { detectHeadings: true });
const allMd: string = doc.toMarkdownAll();

HTML-Konvertierung

const html = doc.toHtml(0);
const allHtml = doc.toHtmlAll();

Bildextraktion

const { writeFileSync } = require("fs");

const doc = new PdfDocument("brochure.pdf");
const images = doc.extractImages(0);

for (const [i, img] of images.entries()) {
  console.log(`Image ${i}: ${img.width}x${img.height} ${img.format} (${img.data.length} bytes)`);
  writeFileSync(`image_${i}.${img.format}`, img.data);
}

doc.close();

Bilder aus Indexed-Color-PDFs werden automatisch nach RGB expandiert, inklusive 1/2/4/8-bpc-Indexpaletten mit RGB-, Graustufen- oder CMYK-Basis-Farbraum.

Aus Bytes öffnen

PDF aus In-Memory-Bytes öffnen — praktisch beim Download aus S3, HTTP oder Datenbanken:

const { PdfDocument } = require("pdf-oxide");
const { readFileSync } = require("fs");

const bytes = readFileSync("document.pdf");
const doc = PdfDocument.openFromBytes(bytes);
const text = doc.extractText(0);
doc.close();

Passwortgeschützte PDFs

const doc = PdfDocument.openWithPassword("confidential.pdf", "secret");
const text = doc.extractText(0);
doc.close();

Sie können sich auch nachträglich authentifizieren:

const doc = new PdfDocument("confidential.pdf");
if (doc.authenticate("secret")) {
  console.log(doc.extractText(0));
}
doc.close();

AES-256-PDFs (V=5, R=6) werden vollständig unterstützt — einschließlich Push-Button-Widget-Beschriftungen und korrekt invalidierter Object-Caches nach nachträglicher Authentifizierung.

PDF-Erstellung

Die Klasse Pdf bietet Factory-Methoden, um PDFs aus verschiedenen Quellformaten zu erzeugen.

Aus Markdown

const { Pdf } = require("pdf-oxide");
const { writeFileSync } = require("fs");

const pdf = Pdf.fromMarkdown("# Hello World\n\nThis is a PDF.");
writeFileSync("output.pdf", pdf.toBytes());

Aus HTML

const pdf = Pdf.fromHtml("<h1>Invoice</h1><p>Amount due: $42.00</p>");
writeFileSync("invoice.pdf", pdf.toBytes());

Aus Klartext

const pdf = Pdf.fromText("Plain text document.\n\nSecond paragraph.");
writeFileSync("notes.pdf", pdf.toBytes());

Aus Bildern

const pdf = Pdf.fromImage("scan.jpg");
writeFileSync("scan.pdf", pdf.toBytes());

Suche

const doc = new PdfDocument("manual.pdf");

// Alle Seiten durchsuchen
const results = doc.searchAll("configuration", { caseSensitive: false });
for (const r of results) {
  console.log(`Page ${r.page}: "${r.text}" at (${r.x.toFixed(0)}, ${r.y.toFixed(0)})`);
}

// Einzelne Seite durchsuchen
const pageResults = doc.searchPage(0, "configuration");
doc.close();

Für Streaming-Suche über große Dokumente verwenden Sie SearchStream:

const { PdfDocument, SearchStream, SearchManager } = require("pdf-oxide");

const doc = new PdfDocument("large.pdf");
const manager = new SearchManager(doc);
const stream = new SearchStream(manager, "invoice");

stream.on("data", (r) => console.log(`page ${r.pageIndex + 1}: ${r.text}`));
stream.on("end", () => doc.close());

Details im Node.js-Streams-Leitfaden.

Bearbeitung

Verwenden Sie DocumentEditor für Metadaten, Seitenoperationen, Anmerkungen und Formularfelder:

const { DocumentEditor } = require("pdf-oxide");

const editor = DocumentEditor.open("document.pdf");

// Metadaten
editor.setTitle("Updated Title");
editor.setAuthor("Jane Doe");

// Seitenoperationen
editor.rotatePage(0, 90);
editor.deletePage(5);
editor.movePage(2, 0);

// Formulare
editor.setFormFieldValue("employee.name", "Jane Doe");
editor.flattenForms();

editor.save("edited.pdf");
editor.close();

OCR

Aktivieren Sie beim Installieren das Feature ocr, um OCR für gescannte Seiten zu nutzen:

npm install pdf-oxide --build-from-source -- --features ocr

const { PdfDocument, OcrEngine } = require("pdf-oxide");

const doc = new PdfDocument("scanned.pdf");
const ocr = new OcrEngine();

if (ocr.pageNeedsOcr(doc, 0)) {
  const text = ocr.extractText(doc, 0);
  console.log(text);
}

ocr.close();
doc.close();

Vollständige Rezepte finden Sie im OCR-Leitfaden.

Thread-Sicherheit

PdfDocument ist Send + Sync — Sie können ein Dokument gefahrlos über Worker-Threads hinweg teilen und Seiten parallel lesen. Die *Async-Methoden erledigen das automatisch über den libuv-Thread-Pool; für manuelle Worker-Patterns siehe Nebenläufigkeit.

Fehlerbehandlung

Alle Methoden werfen Fehler, wenn etwas schiefläuft:

const { PdfDocument } = require("pdf-oxide");

try {
  const doc = new PdfDocument("document.pdf");
  const text = doc.extractText(0);
  doc.close();
} catch (err) {
  console.error(`Extraction failed: ${err.message}`);
}

Nächste Schritte

Python-Schnellstart — PDF Oxide aus Python verwenden
WASM-Schnellstart — Browser / Deno / Bun / Edge-Runtimes
Node.js-API-Referenz — vollständige native API-Dokumentation
Async-Leitfaden — *Async-Methoden und Promise.all-Patterns
Node.js-Streams — SearchStream und mehr
Textextraktion — ausführliche Extraktionsoptionen