What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

PDF Oxide vs pypdf

O PDF Oxide é 15× mais rápido que o pypdf, com taxa de aprovação maior, renderização embutida e conversão para Markdown/HTML. Se você precisa de mais do que manipulação básica de PDF, o PDF Oxide faz em uma única biblioteca o que o pypdf só consegue com vários pacotes.

Por que considerar o PDF Oxide em vez do pypdf

Velocidade. O pypdf é Python puro. O PDF Oxide usa um núcleo em Rust compilado via PyO3, executando diretamente no processo Python. Extração média de texto: 0,8ms contra 12,1ms — uma diferença de 15×.

Confiabilidade. O PDF Oxide passa em 100% dos 3.830 PDFs de teste. O pypdf passa em 98,4% — 61 falhas em PDFs válidos.

Recursos. O pypdf é uma biblioteca de manipulação de PDF (mesclar, dividir, girar, criptografar). Para extração de texto, renderização, saída em Markdown ou criação de formulários, você precisa de pacotes adicionais. O PDF Oxide cobre tudo isso em uma única instalação.

Comparação rápida

	PDF Oxide	pypdf
Tempo médio de extração	0,8ms	12,1ms
Taxa de aprovação (3.830 PDFs)	100%	98,4%
Licença	MIT	BSD-3
Linguagem	Rust + PyO3	Python puro
Extração de texto	Sim	Sim
Posições de caracteres	Sim	Parcial
Extração de imagens	Sim	Sim
Saída em Markdown	Sim	Não
Saída em HTML	Sim	Não
Criação de PDF	Sim (Markdown/HTML/imagens)	Limitada (só mesclar)
Campos de formulário	Ler + Escrever	Ler + Escrever
Criptografia	Ler + Escrever	Ler + Escrever
Renderização	Sim	Não
OCR	Embutido	Não
Busca	Regex + espacial	Não
Tamanho da instalação	~5 MB	~1 MB

Código lado a lado

Extração de texto

PDF Oxide:

from pdf_oxide import PdfDocument

doc = PdfDocument("report.pdf")
text = doc.extract_text(0)
print(text)

pypdf:

from pypdf import PdfReader

reader = PdfReader("report.pdf")
text = reader.pages[0].extract_text()
print(text)

Extrair todas as páginas

PDF Oxide:

from pdf_oxide import PdfDocument

doc = PdfDocument("book.pdf")
for i in range(doc.page_count()):
    text = doc.extract_text(i)
    print(f"--- Page {i + 1} ---")
    print(text)

pypdf:

from pypdf import PdfReader

reader = PdfReader("book.pdf")
for page in reader.pages:
    text = page.extract_text()
    print(text)

Extração de imagens

PDF Oxide:

from pdf_oxide import PdfDocument

doc = PdfDocument("report.pdf")
images = doc.extract_image_bytes(0)
for i, img in enumerate(images):
    with open(f"image_{i}.{img['format']}", "wb") as f:
        f.write(img["data"])

pypdf:

from pypdf import PdfReader

reader = PdfReader("report.pdf")
page = reader.pages[0]
for i, image in enumerate(page.images):
    with open(f"image_{i}.{image.name.split('.')[-1]}", "wb") as f:
        f.write(image.data)

PDFs criptografados

PDF Oxide:

from pdf_oxide import PdfDocument

doc = PdfDocument("encrypted.pdf", password="secret")
text = doc.extract_text(0)

pypdf:

from pypdf import PdfReader

reader = PdfReader("encrypted.pdf")
reader.decrypt("secret")
text = reader.pages[0].extract_text()

Conversão para Markdown

PDF Oxide (embutido):

from pdf_oxide import PdfDocument

doc = PdfDocument("paper.pdf")
md = doc.to_markdown(0, detect_headings=True)
print(md)

pypdf:

# pypdf has no Markdown conversion.
# You would need a separate tool chain.

Detalhes do benchmark

Métrica	PDF Oxide	pypdf
Tempo médio de extração	0,8ms	12,1ms
Tempo de extração p99	9ms	97ms
Taxa de aprovação (PDFs válidos)	100% (3.823/3.823)	98,4% (3.762/3.823)

A implementação em Python puro do pypdf faz com que toda operação rode no interpretador. O núcleo em Rust do PDF Oxide trata parsing, decodificação de fontes e montagem de texto de forma nativa, com apenas o resultado final cruzando a fronteira do Python.

Veja a metodologia completa de benchmark para detalhes do corpus.

Lacuna de recursos

O pypdf se destaca na manipulação de PDF — mesclar, dividir, girar e criptografar. Mas falta:

Recurso	PDF Oxide	pypdf
Conversão para Markdown	`doc.to_markdown(0)`	Indisponível
Conversão para HTML	`doc.to_html(0)`	Indisponível
Criação de PDF a partir de conteúdo	`Pdf.from_markdown()`, `Pdf.from_html()`	Indisponível
Renderização para imagens	Sim	Indisponível
OCR para PDFs digitalizados	PaddleOCR embutido	Indisponível
Busca de texto	`doc.search("query")`	Indisponível
Caixas delimitadoras por caractere	`doc.extract_chars(0)`	Parcial
Validação PDF/A	Sim	Indisponível

Se seu fluxo de trabalho é puramente mesclar/dividir/girar, a abordagem leve em Python puro do pypdf é uma escolha razoável. Para qualquer coisa que envolva qualidade de extração de texto, criação ou conversão, o PDF Oxide é a opção mais completa.

Quando continuar com o pypdf

Você precisa de uma dependência em Python puro sem nenhuma extensão compilada
Seu caso de uso é estritamente mesclar/dividir/girar/criptografar, sem extração de texto
Você precisa de métodos específicos de manipulação de PDF do pypdf para integração com sistemas legados

Páginas relacionadas

Benchmarks de desempenho — resultados completos do corpus
vs Bibliotecas Python de PDF — todas as bibliotecas Python comparadas
Primeiros passos com Python — instalação e primeira extração