What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

Começando com PDF Oxide (WASM)

O PDF Oxide compila para WebAssembly e roda em navegadores, Deno, Bun e runtimes edge como Cloudflare Workers e Vercel Edge. O mesmo núcleo em Rust que alimenta os bindings de Python, Rust, Node.js, Go e C# funciona direto em qualquer ambiente JavaScript com performance próxima da nativa.

Está usando Node.js? No lado do servidor, prefira o addon nativo N-API pdf-oxide: é mais rápido e já traz OCR, renderização e assinaturas. O build WASM desta página é a escolha certa para navegadores e runtimes edge onde addons nativos não podem ser carregados.

Instalação

npm install pdf-oxide-wasm

import { WasmPdfDocument, WasmPdf } from "pdf-oxide-wasm";

Início rápido

Node.js

import { readFileSync } from "fs";
import { WasmPdfDocument } from "pdf-oxide-wasm";

const bytes = new Uint8Array(readFileSync("document.pdf"));
const doc = new WasmPdfDocument(bytes);

console.log(`Pages: ${doc.pageCount()}`);
console.log(doc.extractText(0));

doc.free();

Navegador

<script type="module">
import init, { WasmPdfDocument } from "pdf-oxide-wasm";

await init();

const response = await fetch("document.pdf");
const bytes = new Uint8Array(await response.arrayBuffer());
const doc = new WasmPdfDocument(bytes);

console.log(`Pages: ${doc.pageCount()}`);
console.log(doc.extractText(0));
doc.free();
</script>

Navegador com seletor de arquivo

<input type="file" id="pdfInput" accept=".pdf" />
<pre id="output"></pre>

<script type="module">
import init, { WasmPdfDocument } from "pdf-oxide-wasm";
await init();

document.getElementById("pdfInput").addEventListener("change", async (e) => {
  const file = e.target.files[0];
  const bytes = new Uint8Array(await file.arrayBuffer());
  const doc = new WasmPdfDocument(bytes);

  let result = `Pages: ${doc.pageCount()}\n\n`;
  for (let i = 0; i < doc.pageCount(); i++) {
    result += `--- Page ${i + 1} ---\n`;
    result += doc.extractText(i) + "\n\n";
  }

  document.getElementById("output").textContent = result;
  doc.free();
});
</script>

Extração de texto

Uma página

const doc = new WasmPdfDocument(bytes);
const text = doc.extractText(0);

Todas as páginas

const allText = doc.extractAllText();

Extração estruturada

Dados por caractere e por span com posições e metadados de fonte:

// Dados por caractere
const chars = doc.extractChars(0);
for (const c of chars) {
  console.log(`'${c.char}' at (${c.bbox.x}, ${c.bbox.y}) font=${c.fontName}`);
}

// Dados por span
const spans = doc.extractSpans(0);
for (const span of spans) {
  console.log(`"${span.text}" size=${span.fontSize}`);
}

Conversão para Markdown

const markdown = doc.toMarkdown(0);

// Com opções
const md = doc.toMarkdown(0, true, true); // detect_headings, include_images

// Todas as páginas
const allMarkdown = doc.toMarkdownAll();

Conversão para HTML

const html = doc.toHtml(0);

// Todas as páginas
const allHtml = doc.toHtmlAll();

Criação de PDF

Crie novos PDFs a partir de Markdown, HTML ou texto puro usando WasmPdf:

import { WasmPdf } from "pdf-oxide-wasm";

// A partir de Markdown
const pdf = WasmPdf.fromMarkdown("# Hello World\n\nThis is a PDF.");
const pdfBytes = pdf.toBytes(); // Uint8Array

// A partir de HTML
const invoice = WasmPdf.fromHtml("<h1>Invoice</h1><p>Amount: $42</p>");

// A partir de texto puro
const notes = WasmPdf.fromText("Plain text content.");

// Salvar em arquivo (Node.js)
import { writeFileSync } from "fs";
writeFileSync("output.pdf", pdf.toBytes());

Campos de formulário

const fields = doc.getFormFields();
for (const f of fields) {
  console.log(`${f.name} (${f.fieldType}) = ${f.value}`);
}

// Exportar dados do formulário
const fdfBytes = doc.exportFormData();        // formato FDF
const xfdfBytes = doc.exportFormData("xfdf"); // formato XFDF

Busca

// Buscar em todas as páginas
const results = doc.search("configuration", true); // case_insensitive
for (const r of results) {
  console.log(`Found "${r.text}" on page ${r.page}`);
}

// Buscar em uma página
const pageResults = doc.searchPage(0, "configuration", true);

Abrir a partir de bytes

O construtor de WasmPdfDocument já aceita um Uint8Array direto — não existe um método from_bytes separado:

// Já funciona — WasmPdfDocument recebe os bytes
const doc = new WasmPdfDocument(uint8Array);

PDFs criptografados

const doc = new WasmPdfDocument(encryptedBytes);
const success = doc.authenticate("password");
if (success) {
  console.log(doc.extractText(0));
}

Edição

const doc = new WasmPdfDocument(bytes);

// Metadados
doc.setTitle("Updated Title");
doc.setAuthor("Jane Doe");

// Rotação de página
doc.rotatePage(0, 90);

// Salvar com alterações
const edited = doc.save();

// Salvar criptografado
const encrypted = doc.saveEncryptedToBytes(
  "user-password",
  "owner-password",
  true,   // allow_print
  true,   // allow_copy
  false,  // allow_modify
  true    // allow_annotate
);

Gerenciamento de memória

Objetos WASM mantêm memória do Rust e precisam ser liberados explicitamente:

const doc = new WasmPdfDocument(bytes);
try {
  const text = doc.extractText(0);
} finally {
  doc.free();
}

Disponibilidade de recursos

Alguns recursos exigem dependências nativas e não estão disponíveis no build WebAssembly:

Recurso	WASM	Observações
Extração de texto	Sim	Suporte completo
Criação de PDF	Sim	Markdown, HTML, texto
Edição de PDF	Sim	Suporte completo
Criptografia	Sim	AES-256
OCR	Não	Requer ONNX Runtime nativo
Assinaturas digitais	Não	Requer bibliotecas nativas de criptografia
Renderização de páginas	Não	Requer tiny-skia nativo

Para OCR ou renderização, use os bindings de Python ou Rust.

Próximos passos

Começando em Python – usando PDF Oxide em Python
Começando em Rust – usando PDF Oxide em Rust
Referência da API JavaScript – documentação completa da API WASM
Extração de texto – opções detalhadas de extração
Criação de PDF – criação avançada