What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

PDF Oxide MCP Server — extração de PDF para assistentes de IA

pdf-oxide-mcp é um servidor Model Context Protocol que permite aos assistentes de IA ler o conteúdo dos seus PDFs. Tudo roda localmente — nenhum arquivo sai da sua máquina.

Instale o crgx (uma vez só)

crgx é um runner no estilo npx para binários Rust: ele baixa o pdf_oxide_mcp automaticamente na primeira execução. Não precisa instalar nada do MCP na mão.

Linux / macOS

curl -fsSL crgx.dev/install.sh | sh

Windows (PowerShell)

irm crgx.dev/install.ps1 | iex

Configuração

Depois de instalar o crgx, adicione a configuração abaixo na sua ferramenta de IA. É só isso — o crgx cuida sozinho do download e da atualização do pdf_oxide_mcp.

Claude Desktop

Adicione ao ~/.config/claude/claude_desktop_config.json (Linux) ou ~/Library/Application Support/Claude/claude_desktop_config.json (macOS):

{
  "mcpServers": {
    "pdf-oxide": {
      "command": "crgx",
      "args": ["pdf_oxide_mcp@latest"]
    }
  }
}

Claude Code

Adicione ao .claude/settings.json do seu projeto:

{
  "mcpServers": {
    "pdf-oxide": {
      "command": "crgx",
      "args": ["pdf_oxide_mcp@latest"]
    }
  }
}

Cursor

Adicione nas configurações MCP do Cursor:

{
  "mcpServers": {
    "pdf-oxide": {
      "command": "crgx",
      "args": ["pdf_oxide_mcp@latest"]
    }
  }
}

Outras formas de instalar

Se preferir não usar o crgx, dá para instalar o pdf_oxide_mcp direto:

Homebrew (macOS / Linux)

brew install yfedoseev/tap/pdf-oxide    # inclui pdf-oxide-mcp

Cargo

cargo install pdf_oxide_mcp

Depois aponte a configuração direto para o binário:

{
  "mcpServers": {
    "pdf-oxide": {
      "command": "pdf-oxide-mcp"
    }
  }
}

Ferramentas disponíveis

`extract`

Extrai texto, Markdown ou HTML de um arquivo PDF.

Parâmetro	Tipo	Obrigatório	Descrição
`file_path`	string	Sim	Caminho do arquivo PDF
`output_path`	string	Sim	Caminho onde o conteúdo extraído será gravado
`format`	string	Não	`"text"` (padrão), `"markdown"` ou `"html"`
`pages`	string	Não	Intervalo de páginas, ex.: `"1-3,7,10-12"`
`password`	string	Não	Senha para PDFs criptografados
`images`	boolean	Não	Salva as imagens em arquivos ao lado da saída
`embed_images`	boolean	Não	Incorpora as imagens em base64 dentro do markdown/html (padrão: true)

Como funciona

O servidor MCP se comunica por stdio usando JSON-RPC 2.0. Quando um assistente de IA precisa ler um PDF, ele envia uma requisição tools/call e recebe o conteúdo extraído de volta.

Todo o processamento acontece localmente com o mesmo motor de extração em Rust que a biblioteca e o CLI usam — nenhum dado é enviado para serviços externos.

Prompts que você pode dar ao assistente

Com o servidor MCP conectado, o assistente chama o extract por conta própria. Alguns prompts que funcionam bem:

“Passe o Markdown de report.pdf para report.md.”
“Extraia as páginas 4–8 de contract.pdf como HTML com imagens embutidas e salve em contract.html.”
“bank-statement.pdf está com senha (pw: hunter2) — extraia só a tabela de transações em texto.”

Por baixo dos panos, o assistente dispara uma chamada JSON-RPC mais ou menos assim:

{
  "jsonrpc": "2.0",
  "id": 1,
  "method": "tools/call",
  "params": {
    "name": "extract",
    "arguments": {
      "file_path": "/path/report.pdf",
      "output_path": "/path/report.md",
      "format": "markdown",
      "pages": "4-8",
      "images": true,
      "embed_images": true
    }
  }
}

O servidor grava o resultado em output_path e devolve uma confirmação curta — o assistente então lê esse arquivo e traz o conteúdo para o contexto dele.