What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

Primeros pasos con PDF Oxide (Swift)

PDF Oxide es la librería de PDF más rápida con extracción de texto integrada: 0,8 ms de media y 100 % de aciertos en 3830 PDFs. El binding de Swift, novedad en la v0.3.69, envuelve el núcleo en Rust a través de una C ABI: las clases son propietarias de los handles (que se liberan en deinit), los buffers de C se copian a String/[UInt8] de Swift y los códigos de error se lanzan como PdfOxideError.

Instalación

El binding enlaza con el cdylib de características por defecto. Compila la librería nativa y luego indica a SwiftPM dónde están las cabeceras y la librería:

# 1. build the native library (shipped binding feature set)
cargo build --release --lib --features ocr,rendering,signatures,barcodes,tsa-client,system-fonts

# 2. test + run the example (Package.swift reads PDF_OXIDE_INCLUDE_DIR / _LIB_DIR)
cd swift
export PDF_OXIDE_INCLUDE_DIR="$PWD/../include"
export PDF_OXIDE_LIB_DIR="$PWD/../target/release"
DYLD_LIBRARY_PATH="$PDF_OXIDE_LIB_DIR" swift test
DYLD_LIBRARY_PATH="$PDF_OXIDE_LIB_DIR" swift run basic_extraction

Guía rápida

Crea un PDF a partir de Markdown, ábrelo desde los bytes generados y extrae su texto. Todo el recorrido se ejecuta sin ningún fixture externo:

import PdfOxide

let pdf = try Pdf.fromMarkdown("# Hello pdf_oxide\n\nThis is a **Swift** binding.\n")
let doc = try Document.openFromBytes(try pdf.toBytes())

print("pages:   \(try doc.pageCount())")
print("version: \(try doc.version())")
print(try doc.extractText(0))

Para abrir un archivo del disco, usa Document.open(_:):

import PdfOxide

let doc = try Document.open("research-paper.pdf")
print("Pages:   \(try doc.pageCount())")
print("Version: \(try doc.version())")        // e.g. 1.7

Extracción de texto

extractText(_:) devuelve el texto de una sola página (índice base cero). Recorre pageCount() para leer todo el documento:

import PdfOxide

let doc = try Document.open("book.pdf")
for i in 0..<(try doc.pageCount()) {
    print("--- Page \(i + 1) ---")
    print(try doc.extractText(i))
}

toPlainText(_:) da una variante aplanada, sin disposición, y los métodos *All() extraen todas las páginas de una sola vez:

let doc = try Document.open("report.pdf")
let plain = try doc.toPlainText(0)            // single page, no layout
let everything = try doc.toPlainTextAll()     // all pages concatenated

Palabras y caracteres

extractWords(_:) devuelve [Word] con un cuadro delimitador y metadatos de fuente para cada palabra. extractChars(_:) devuelve [Char] con la posición de cada carácter:

import PdfOxide

let doc = try Document.open("paper.pdf")

let words = try doc.extractWords(0)
for word in words.prefix(10) {
    print("'\(word.text)' at (\(word.bbox.x), \(word.bbox.y)) "
        + "font=\(word.fontName) size=\(word.fontSize) bold=\(word.bold)")
}

let chars = try doc.extractChars(0)
for ch in chars.prefix(10) {
    let scalar = Unicode.Scalar(ch.character).map(String.init) ?? "?"
    print("'\(scalar)' size=\(ch.fontSize) font=\(ch.fontName)")
}

Campos de Word: text (String), bbox (Bbox), fontName (String), fontSize (Double), bold (Bool). Campos de Char: character (codepoint UInt32), bbox, fontName, fontSize. Un Bbox expone x, y, width y height como Double.

También puedes obtener el texto línea a línea con extractTextLines(_:), que devuelve [TextLine] (text, bbox, wordCount):

let lines = try doc.extractTextLines(0)
for line in lines {
    print("\(line.wordCount) words: \(line.text)")
}

Conversión a Markdown y HTML

Convierte una sola página o el documento completo a Markdown o HTML:

import PdfOxide

let doc = try Document.open("paper.pdf")

let md = try doc.toMarkdown(0)        // one page to Markdown
let mdAll = try doc.toMarkdownAll()   // whole document to Markdown
let html = try doc.toHtml(0)          // one page to HTML
let htmlAll = try doc.toHtmlAll()     // whole document to HTML

print(mdAll)

Búsqueda

search(_:_:_:) busca en una sola página; searchAll(_:_:) busca en todo el documento. Ambos reciben un término de búsqueda y un flag caseSensitive, y devuelven [SearchResult] (text, page, bbox):

import PdfOxide

let doc = try Document.open("manual.pdf")

// Search a single page (page 0, case-insensitive)
let hits = try doc.search(0, "configuration", false)
for hit in hits {
    print("page \(hit.page): '\(hit.text)' at (\(hit.bbox.x), \(hit.bbox.y))")
}

// Search the whole document
let allHits = try doc.searchAll("configuration", false)
print("\(allHits.count) total matches")

Creación de PDFs

El tipo Pdf ofrece métodos de fábrica que construyen un documento a partir de un formato de origen. Guárdalo en disco con save(_:) u obtén los bytes en bruto con toBytes():

import PdfOxide

try Pdf.fromMarkdown("# Hello World\n\nThis is a PDF.").save("output.pdf")
try Pdf.fromHtml("<h1>Invoice</h1><p>Amount: $42</p>").save("invoice.pdf")
try Pdf.fromText("Plain text content.").save("notes.pdf")

let bytes = try Pdf.fromMarkdown("# In-memory\n\nbody\n").toBytes()
print("produced \(bytes.count) bytes")

Manejo de errores

Cada llamada que puede fallar lanza PdfOxideError, que lleva el nombre de la operación fallida y el código de error subyacente de la C ABI:

import PdfOxide

do {
    let doc = try Document.open("document.pdf")
    print(try doc.extractText(0))
} catch let error as PdfOxideError {
    print("PDF error: \(error)")   // e.g. "PdfOxideError: open failed (error code 1)"
}

Próximos pasos

Primeros pasos con Rust – usar PDF Oxide desde Rust
Primeros pasos con Python – usar PDF Oxide desde Python
Extracción de texto – opciones y recetas de extracción en detalle
Creación de PDFs – creación avanzada con metadatos y cifrado
Edición – modificar PDFs existentes, anotaciones y campos de formulario