What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

Primeros pasos con PDF Oxide (Rust)

PDF Oxide es el crate de Rust para PDF más rápido con extracción de texto integrada: 0,8 ms de media y 100 % de acierto en 3 830 PDFs. Una sola biblioteca para extraer, crear y editar PDFs.

Instalación

Agrega pdf_oxide a tu Cargo.toml:

[dependencies]
pdf_oxide = "0.3"

Feature flags

Activa solo lo que necesites:

# Por defecto -- extracción de texto, creación y edición
pdf_oxide = "0.3"

# Renderizado de páginas a imagen
pdf_oxide = { version = "0.3", features = ["rendering"] }

# Generación de códigos de barras
pdf_oxide = { version = "0.3", features = ["barcodes"] }

# Firmas digitales
pdf_oxide = { version = "0.3", features = ["signatures"] }

# Conversión de documentos Office (DOCX, XLSX, PPTX)
pdf_oxide = { version = "0.3", features = ["office"] }

# Todo
pdf_oxide = { version = "0.3", features = ["full"] }

Abrir un PDF

Usa PdfDocument::open() para cargar un archivo e inspeccionar sus metadatos.

use pdf_oxide::PdfDocument;

let doc = PdfDocument::open("research-paper.pdf")?;
println!("Pages: {}", doc.page_count());
println!("PDF version: {}", doc.version());

Extracción de texto

Texto plano

use pdf_oxide::PdfDocument;

let doc = PdfDocument::open("report.pdf")?;
let text = doc.extract_text(0)?;
println!("{text}");

Spans de texto

extract_spans() devuelve un Vec<TextSpan> con los metadatos de fuente de cada tramo de texto con estilo uniforme.

use pdf_oxide::PdfDocument;

let doc = PdfDocument::open("paper.pdf")?;
let spans = doc.extract_spans(0)?;

for span in &spans {
    println!("'{}' at ({:.1}, {:.1}) font={} size={:.1}",
        span.text, span.x, span.y, span.font_name, span.font_size);
}

Campos de TextSpan:

Campo	Tipo	Descripción
`text`	`String`	Contenido del texto
`x`	`f64`	Posición horizontal en puntos
`y`	`f64`	Posición vertical en puntos
`font_name`	`String`	Nombre PostScript de la fuente
`font_size`	`f64`	Tamaño de fuente en puntos
`bbox`	`Rect`	Rectángulo delimitador

Extracción por carácter

extract_chars() devuelve un Vec<TextChar> con la posición exacta de cada carácter.

use pdf_oxide::PdfDocument;

let doc = PdfDocument::open("paper.pdf")?;
let chars = doc.extract_chars(0)?;

for ch in chars.iter().take(10) {
    println!("'{}' at ({:.1}, {:.1}) size={:.1} font={}",
        ch.char, ch.x, ch.y, ch.font_size, ch.font_name);
}

Campos de TextChar:

Campo	Tipo	Descripción
`char`	`char`	Carácter Unicode
`x`	`f64`	Posición horizontal en puntos
`y`	`f64`	Posición vertical en puntos
`font_size`	`f64`	Tamaño de fuente en puntos
`font_name`	`String`	Nombre PostScript de la fuente
`bbox`	`Rect`	Rectángulo delimitador

Conversión a Markdown

Convierte una página a Markdown con opciones configurables.

use pdf_oxide::PdfDocument;
use pdf_oxide::converters::ConversionOptions;

let doc = PdfDocument::open("paper.pdf")?;
let options = ConversionOptions { detect_headings: true, ..Default::default() };
let md = doc.to_markdown(0, &options)?;
println!("{md}");

Conversión a HTML

use pdf_oxide::PdfDocument;

let doc = PdfDocument::open("paper.pdf")?;
let html = doc.to_html(0)?;
println!("{html}");

Extracción de imágenes

extract_images() devuelve los metadatos y los datos crudos de cada imagen de una página, incluidas las imágenes dentro de content streams y Form XObjects anidados.

use pdf_oxide::PdfDocument;

let doc = PdfDocument::open("brochure.pdf")?;
let images = doc.extract_images(0)?;

for (i, img) in images.iter().enumerate() {
    println!("Image {i}: {}x{} {} {}bpc ({} bytes)",
        img.width, img.height, img.color_space,
        img.bits_per_component, img.data.len());
}

Vuelca las imágenes directamente al disco con extract_images_to_files():

let doc = PdfDocument::open("brochure.pdf")?;
let paths = doc.extract_images_to_files(0, "output_dir")?;
for path in &paths {
    println!("Saved: {}", path.display());
}

Creación de PDF

Métodos factory

El tipo Pdf expone métodos factory de alto nivel.

use pdf_oxide::api::Pdf;

let mut pdf = Pdf::from_markdown("# Hello World\n\nThis is a PDF.")?;
pdf.save("output.pdf")?;

let mut pdf = Pdf::from_html("<h1>Invoice</h1><p>Amount: $42</p>")?;
pdf.save("invoice.pdf")?;

let mut pdf = Pdf::from_text("Plain text content.")?;
pdf.save("notes.pdf")?;

let mut pdf = Pdf::from_image("scan.jpg")?;
pdf.save("scan.pdf")?;

API fluida con PdfBuilder

Para controlar por completo los metadatos, el tamaño de página y los márgenes:

use pdf_oxide::api::PdfBuilder;
use pdf_oxide::writer::PageSize;

let mut pdf = PdfBuilder::new()
    .title("Annual Report")
    .author("Acme Corp")
    .page_size(PageSize::A4)
    .margins(72.0, 72.0, 72.0, 72.0)
    .font_size(11.0)
    .from_markdown("# Annual Report\n\n...")?;

pdf.save("annual-report.pdf")?;

API de bajo nivel con DocumentBuilder

Para colocar texto, figuras e imágenes con precisión de píxel:

use pdf_oxide::writer::DocumentBuilder;

let mut builder = DocumentBuilder::new();
builder.add_page(612.0, 792.0)
    .text("Hello, world!", 72.0, 720.0, 12.0)
    .rect(100.0, 600.0, 200.0, 50.0)
    .image_at("logo.png", 400.0, 700.0, 100.0, 50.0)?;

builder.save("custom.pdf")?;

Búsqueda

Busca texto en todo el documento o con opciones más finas.

use pdf_oxide::api::Pdf;

let pdf = Pdf::open("manual.pdf")?;

// Búsqueda simple en todas las páginas
let results = pdf.search("configuration")?;
for r in &results {
    println!("Page {}: '{}' at ({:.0}, {:.0})", r.page, r.text, r.x, r.y);
}

use pdf_oxide::api::{Pdf, SearchOptions};

let pdf = Pdf::open("manual.pdf")?;

let opts = SearchOptions {
    case_sensitive: false,
    whole_word: true,
    max_results: Some(50),
    ..Default::default()
};
let results = pdf.search_with_options("configuration", &opts)?;

Edición

DocumentEditor

Abre un PDF existente para ediciones estructurales, como rotar páginas o manipular campos de formulario.

use pdf_oxide::api::Pdf;

let mut pdf = Pdf::open_editor("form-template.pdf")?;

// Rotar una página
pdf.rotate_page(0, 90)?;

// Agregar un campo de formulario
pdf.add_text_field("name", [100.0, 700.0, 300.0, 720.0])?;
pdf.add_checkbox("agree", [100.0, 650.0, 120.0, 670.0], false)?;

pdf.save("modified.pdf")?;

Edición tipo DOM

Recorre los elementos de una página y modifica el texto en su sitio.

use pdf_oxide::api::Pdf;

let mut pdf = Pdf::open("document.pdf")?;
let mut page = pdf.page(0)?;

// Buscar elementos de texto
for t in page.find_text_containing("Draft") {
    println!("Found '{}' at {:?}", t.text(), t.bbox());
}

// Reemplazar texto
let matches = page.find_text_containing("Draft");
for t in &matches {
    page.set_text(t.id(), "Final")?;
}

pdf.save_page(page)?;
pdf.save("updated.pdf")?;

Manejo de errores

Toda operación falible devuelve Result<T, PdfError>. El enum PdfError cubre los principales modos de fallo.

use pdf_oxide::PdfDocument;
use pdf_oxide::PdfError;

fn extract(path: &str) -> Result<String, PdfError> {
    let doc = PdfDocument::open(path)?;
    doc.extract_text(0)
}

match extract("file.pdf") {
    Ok(text) => println!("{text}"),
    Err(PdfError::Io(e)) => eprintln!("I/O error: {e}"),
    Err(PdfError::Parse(msg)) => eprintln!("Parse error: {msg}"),
    Err(PdfError::Password) => eprintln!("Password required"),
    Err(PdfError::PageOutOfRange { index, count }) => {
        eprintln!("Page {index} does not exist ({count} pages total)");
    }
    Err(e) => eprintln!("Error: {e}"),
}

Variantes de PdfError:

Variante	Descripción
`Io`	Error de sistema de archivos o de E/S
`Parse`	Estructura PDF malformada
`Password`	El documento está cifrado y no se pasó contraseña
`PageOutOfRange`	El índice de página solicitado excede el número de páginas

Siguientes pasos

Primeros pasos en Python – usar PDF Oxide desde Python
Extracción de texto – opciones y recetas detalladas
Creación de PDF – creación avanzada con PdfBuilder, cifrado y metadatos
Edición – modificar PDFs existentes, anotaciones y campos de formulario
Referencia de API – documentación completa de la API