What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

PDF Oxide vs pdfplumber

O PDF Oxide é 29× mais rápido que o pdfplumber na extração de texto, oferecendo ao mesmo tempo um conjunto de recursos mais amplo. Já o pdfplumber tem algoritmos de extração de tabelas mais maduros. Esta página ajuda você a escolher a ferramenta certa para o seu caso de uso.

Principais diferenças

Velocidade. O pdfplumber é puro Python (construído sobre o pdfminer). O núcleo em Rust do PDF Oxide extrai texto em 0,8ms na média, contra 23,2ms — 29× mais rápido.

Confiabilidade. O PDF Oxide passa em 100% de 3.830 PDFs de teste. O pdfplumber passa em 98,8% — 46 falhas em PDFs válidos.

Tabelas. O pdfplumber tem a melhor extração de tabelas entre todas as bibliotecas de PDF em Python. A detecção de tabelas do PDF Oxide é funcional, mas menos madura para layouts complexos de múltiplas linhas e colunas com células mescladas.

Escopo. O pdfplumber é somente leitura. O PDF Oxide acrescenta criação, edição, criptografia, renderização e saída em Markdown/HTML.

Comparação rápida

	PDF Oxide	pdfplumber
Tempo médio de extração	0,8ms	23,2ms
Taxa de sucesso (3.830 PDFs)	100%	98,8%
Licença	MIT	MIT
Linguagem	Rust + PyO3	Puro Python
Extração de texto	Sim	Sim
Posições de caracteres	Sim	Sim
Extração de tabelas	Básica	Avançada
Extração de imagens	Sim	Não
Depuração visual	Não	Sim
Saída em Markdown	Sim	Não
Saída em HTML	Sim	Não
Criação de PDF	Sim	Não
Edição de PDF	Sim	Não
Criptografia	Leitura + escrita	Não
Renderização	Sim	Não
Campos de formulário	Leitura + escrita	Somente leitura

Código lado a lado

Extração de texto

PDF Oxide:

from pdf_oxide import PdfDocument

doc = PdfDocument("report.pdf")
text = doc.extract_text(0)
print(text)

pdfplumber:

import pdfplumber

with pdfplumber.open("report.pdf") as pdf:
    page = pdf.pages[0]
    text = page.extract_text()
    print(text)

Extração em nível de caractere

PDF Oxide:

from pdf_oxide import PdfDocument

doc = PdfDocument("report.pdf")
chars = doc.extract_chars(0)
for ch in chars[:10]:
    print(f"'{ch.char}' at ({ch.x:.1f}, {ch.y:.1f}) size={ch.font_size:.1f}")

pdfplumber:

import pdfplumber

with pdfplumber.open("report.pdf") as pdf:
    page = pdf.pages[0]
    for char in page.chars[:10]:
        print(f"'{char['text']}' at ({char['x0']:.1f}, {char['top']:.1f}) "
              f"size={char['size']:.1f}")

Extração de tabelas

PDF Oxide:

from pdf_oxide import PdfDocument

doc = PdfDocument("invoice.pdf")
md = doc.to_markdown(0, detect_headings=True)
# Tables are converted to Markdown table syntax
print(md)

pdfplumber:

import pdfplumber

with pdfplumber.open("invoice.pdf") as pdf:
    page = pdf.pages[0]
    tables = page.extract_tables()
    for table in tables:
        for row in table:
            print(row)

O extract_tables() do pdfplumber retorna dados estruturados de linhas/colunas com detecção de linhas configurável. Para tabelas complexas com células mescladas, cabeçalhos que abrangem várias colunas ou layouts sem bordas, os algoritmos do pdfplumber são mais robustos.

Detalhes do benchmark

Métrica	PDF Oxide	pdfplumber
Tempo médio de extração	0,8ms	23,2ms
Tempo de extração p99	9ms	189ms
Taxa de sucesso (PDFs válidos)	100% (3.823/3.823)	98,8% (3.777/3.823)

A diferença de 29× na velocidade vem da arquitetura puro Python do pdfplumber. O pdfplumber se baseia no pdfminer para análise e, em seguida, adiciona sua própria camada de análise espacial — ambas escritas em Python. O PDF Oxide trata toda a análise, decodificação de fontes e montagem de texto em Rust compilado.

Veja a metodologia completa do benchmark para detalhes sobre o corpus.

Quando usar cada um

Escolha o PDF Oxide se:

A velocidade importa. Processar milhares de PDFs em que ser 29× mais rápido significa minutos em vez de horas.
Você precisa de mais do que extração. Criação, edição, criptografia, renderização ou saída em Markdown.
Você quer a máxima confiabilidade. Taxa de sucesso de 100% contra 98,8%.
Você precisa de extração de imagens. O pdfplumber não extrai imagens.
Pipelines de processamento em lote. 0,8ms por PDF significa 3.830 PDFs em 3,1 segundos.

Escolha o pdfplumber se:

A extração de tabelas complexas é seu principal caso de uso. Os algoritmos de tabela do pdfplumber lidam melhor com células mescladas, tabelas sem bordas e cabeçalhos que abrangem colunas.
Você precisa de depuração visual. O pdfplumber consegue renderizar imagens de página anotadas, mostrando linhas, caracteres e limites de tabela detectados.
Você prefere puro Python. Sem dependências compiladas, instala em qualquer lugar.

Use os dois:

Para pipelines que precisam de extração rápida de texto e análise de tabelas complexas, use o PDF Oxide para o texto e o pdfplumber para as tabelas:

from pdf_oxide import PdfDocument
import pdfplumber

# Fast text extraction with PDF Oxide
doc = PdfDocument("report.pdf")
text = doc.extract_text(0)

# Complex table extraction with pdfplumber
with pdfplumber.open("report.pdf") as pdf:
    tables = pdf.pages[0].extract_tables()

Páginas relacionadas

Benchmarks de desempenho — resultados completos do corpus
vs bibliotecas de PDF em Python — comparação de todas as bibliotecas Python
Extrair tabelas de PDF — guia de extração de tabelas
Primeiros passos com Python — instalação e primeira extração