What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

Começando com PDF Oxide (Rust)

O PDF Oxide é o crate de Rust para PDF mais rápido com extração de texto embutida: 0,8 ms em média e 100 % de acerto em 3 830 PDFs. Uma única biblioteca para extrair, criar e editar PDFs.

Instalação

Adicione pdf_oxide ao seu Cargo.toml:

[dependencies]
pdf_oxide = "0.3"

Feature flags

Ative só o que você precisa:

# Padrão -- extração de texto, criação e edição
pdf_oxide = "0.3"

# Renderização de páginas em imagem
pdf_oxide = { version = "0.3", features = ["rendering"] }

# Geração de códigos de barras
pdf_oxide = { version = "0.3", features = ["barcodes"] }

# Assinaturas digitais
pdf_oxide = { version = "0.3", features = ["signatures"] }

# Conversão de documentos Office (DOCX, XLSX, PPTX)
pdf_oxide = { version = "0.3", features = ["office"] }

# Tudo
pdf_oxide = { version = "0.3", features = ["full"] }

Abrindo um PDF

Use PdfDocument::open() para carregar um arquivo e inspecionar seus metadados.

use pdf_oxide::PdfDocument;

let doc = PdfDocument::open("research-paper.pdf")?;
println!("Pages: {}", doc.page_count());
println!("PDF version: {}", doc.version());

Extração de texto

Texto puro

use pdf_oxide::PdfDocument;

let doc = PdfDocument::open("report.pdf")?;
let text = doc.extract_text(0)?;
println!("{text}");

Spans de texto

extract_spans() retorna um Vec<TextSpan> com os metadados de fonte de cada trecho de texto com estilo uniforme.

use pdf_oxide::PdfDocument;

let doc = PdfDocument::open("paper.pdf")?;
let spans = doc.extract_spans(0)?;

for span in &spans {
    println!("'{}' at ({:.1}, {:.1}) font={} size={:.1}",
        span.text, span.x, span.y, span.font_name, span.font_size);
}

Campos de TextSpan:

Campo	Tipo	Descrição
`text`	`String`	Conteúdo do texto
`x`	`f64`	Posição horizontal em pontos
`y`	`f64`	Posição vertical em pontos
`font_name`	`String`	Nome PostScript da fonte
`font_size`	`f64`	Tamanho da fonte em pontos
`bbox`	`Rect`	Retângulo delimitador

Extração por caractere

extract_chars() retorna um Vec<TextChar> com a posição exata de cada caractere.

use pdf_oxide::PdfDocument;

let doc = PdfDocument::open("paper.pdf")?;
let chars = doc.extract_chars(0)?;

for ch in chars.iter().take(10) {
    println!("'{}' at ({:.1}, {:.1}) size={:.1} font={}",
        ch.char, ch.x, ch.y, ch.font_size, ch.font_name);
}

Campos de TextChar:

Campo	Tipo	Descrição
`char`	`char`	Caractere Unicode
`x`	`f64`	Posição horizontal em pontos
`y`	`f64`	Posição vertical em pontos
`font_size`	`f64`	Tamanho da fonte em pontos
`font_name`	`String`	Nome PostScript da fonte
`bbox`	`Rect`	Retângulo delimitador

Conversão para Markdown

Converta uma página em Markdown com opções configuráveis.

use pdf_oxide::PdfDocument;
use pdf_oxide::converters::ConversionOptions;

let doc = PdfDocument::open("paper.pdf")?;
let options = ConversionOptions { detect_headings: true, ..Default::default() };
let md = doc.to_markdown(0, &options)?;
println!("{md}");

Conversão para HTML

use pdf_oxide::PdfDocument;

let doc = PdfDocument::open("paper.pdf")?;
let html = doc.to_html(0)?;
println!("{html}");

Extração de imagens

extract_images() retorna metadados e dados brutos de todas as imagens de uma página, incluindo imagens em content streams e em Form XObjects aninhados.

use pdf_oxide::PdfDocument;

let doc = PdfDocument::open("brochure.pdf")?;
let images = doc.extract_images(0)?;

for (i, img) in images.iter().enumerate() {
    println!("Image {i}: {}x{} {} {}bpc ({} bytes)",
        img.width, img.height, img.color_space,
        img.bits_per_component, img.data.len());
}

Grave imagens direto no disco com extract_images_to_files():

let doc = PdfDocument::open("brochure.pdf")?;
let paths = doc.extract_images_to_files(0, "output_dir")?;
for path in &paths {
    println!("Saved: {}", path.display());
}

Criação de PDF

Métodos factory

O tipo Pdf oferece métodos factory de alto nível.

use pdf_oxide::api::Pdf;

let mut pdf = Pdf::from_markdown("# Hello World\n\nThis is a PDF.")?;
pdf.save("output.pdf")?;

let mut pdf = Pdf::from_html("<h1>Invoice</h1><p>Amount: $42</p>")?;
pdf.save("invoice.pdf")?;

let mut pdf = Pdf::from_text("Plain text content.")?;
pdf.save("notes.pdf")?;

let mut pdf = Pdf::from_image("scan.jpg")?;
pdf.save("scan.pdf")?;

API fluente com PdfBuilder

Para controle total sobre metadados, tamanho de página e margens:

use pdf_oxide::api::PdfBuilder;
use pdf_oxide::writer::PageSize;

let mut pdf = PdfBuilder::new()
    .title("Annual Report")
    .author("Acme Corp")
    .page_size(PageSize::A4)
    .margins(72.0, 72.0, 72.0, 72.0)
    .font_size(11.0)
    .from_markdown("# Annual Report\n\n...")?;

pdf.save("annual-report.pdf")?;

API de baixo nível com DocumentBuilder

Para posicionar texto, formas e imagens com precisão de pixel:

use pdf_oxide::writer::DocumentBuilder;

let mut builder = DocumentBuilder::new();
builder.add_page(612.0, 792.0)
    .text("Hello, world!", 72.0, 720.0, 12.0)
    .rect(100.0, 600.0, 200.0, 50.0)
    .image_at("logo.png", 400.0, 700.0, 100.0, 50.0)?;

builder.save("custom.pdf")?;

Busca

Pesquise texto em todo o documento ou com opções mais finas.

use pdf_oxide::api::Pdf;

let pdf = Pdf::open("manual.pdf")?;

// Busca simples em todas as páginas
let results = pdf.search("configuration")?;
for r in &results {
    println!("Page {}: '{}' at ({:.0}, {:.0})", r.page, r.text, r.x, r.y);
}

use pdf_oxide::api::{Pdf, SearchOptions};

let pdf = Pdf::open("manual.pdf")?;

let opts = SearchOptions {
    case_sensitive: false,
    whole_word: true,
    max_results: Some(50),
    ..Default::default()
};
let results = pdf.search_with_options("configuration", &opts)?;

Edição

DocumentEditor

Abra um PDF existente para edições estruturais, como rotação de páginas e manipulação de campos de formulário.

use pdf_oxide::api::Pdf;

let mut pdf = Pdf::open_editor("form-template.pdf")?;

// Rotacionar uma página
pdf.rotate_page(0, 90)?;

// Adicionar um campo de formulário
pdf.add_text_field("name", [100.0, 700.0, 300.0, 720.0])?;
pdf.add_checkbox("agree", [100.0, 650.0, 120.0, 670.0], false)?;

pdf.save("modified.pdf")?;

Edição de página no estilo DOM

Navegue pelos elementos da página e modifique o texto no lugar.

use pdf_oxide::api::Pdf;

let mut pdf = Pdf::open("document.pdf")?;
let mut page = pdf.page(0)?;

// Encontrar elementos de texto
for t in page.find_text_containing("Draft") {
    println!("Found '{}' at {:?}", t.text(), t.bbox());
}

// Substituir texto
let matches = page.find_text_containing("Draft");
for t in &matches {
    page.set_text(t.id(), "Final")?;
}

pdf.save_page(page)?;
pdf.save("updated.pdf")?;

Tratamento de erros

Toda operação que pode falhar retorna Result<T, PdfError>. O enum PdfError cobre os principais modos de falha.

use pdf_oxide::PdfDocument;
use pdf_oxide::PdfError;

fn extract(path: &str) -> Result<String, PdfError> {
    let doc = PdfDocument::open(path)?;
    doc.extract_text(0)
}

match extract("file.pdf") {
    Ok(text) => println!("{text}"),
    Err(PdfError::Io(e)) => eprintln!("I/O error: {e}"),
    Err(PdfError::Parse(msg)) => eprintln!("Parse error: {msg}"),
    Err(PdfError::Password) => eprintln!("Password required"),
    Err(PdfError::PageOutOfRange { index, count }) => {
        eprintln!("Page {index} does not exist ({count} pages total)");
    }
    Err(e) => eprintln!("Error: {e}"),
}

Variantes de PdfError:

Variante	Descrição
`Io`	Falha de sistema de arquivos ou de E/S
`Parse`	Estrutura PDF malformada
`Password`	Documento está criptografado e nenhuma senha foi passada
`PageOutOfRange`	Índice de página solicitado excede o total de páginas

Próximos passos

Começando em Python – usando PDF Oxide em Python
Extração de texto – opções detalhadas e receitas de extração
Criação de PDF – criação avançada com PdfBuilder, criptografia e metadados
Edição – alterar PDFs existentes, anotações e campos de formulário
Referência da API – documentação completa da API