What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

PDF Oxide vs pypdf

PDF Oxide es 15× más rápido que pypdf, con una tasa de aprobación más alta, renderizado integrado y conversión a Markdown/HTML. Si necesitas algo más que la manipulación básica de PDF, PDF Oxide hace en una sola biblioteca lo que pypdf requiere varios paquetes para lograr.

Por qué considerar PDF Oxide en lugar de pypdf

Velocidad. pypdf es Python puro. PDF Oxide usa un núcleo en Rust compilado mediante PyO3, que se ejecuta directamente en el proceso de Python. Extracción media de texto: 0,8 ms frente a 12,1 ms — una diferencia de 15×.

Fiabilidad. PDF Oxide aprueba el 100 % de 3.830 PDFs de prueba. pypdf aprueba el 98,4 % — 61 fallos en PDFs válidos.

Funciones. pypdf es una biblioteca de manipulación de PDF (combinar, dividir, rotar, cifrar). Para extracción de texto, renderizado, salida en Markdown o creación de formularios, necesitas paquetes adicionales. PDF Oxide cubre todo esto con una sola instalación.

Comparación rápida

	PDF Oxide	pypdf
Tiempo medio de extracción	0,8 ms	12,1 ms
Tasa de aprobación (3.830 PDFs)	100 %	98,4 %
Licencia	MIT	BSD-3
Lenguaje	Rust + PyO3	Python puro
Extracción de texto	Sí	Sí
Posiciones de caracteres	Sí	Parcial
Extracción de imágenes	Sí	Sí
Salida en Markdown	Sí	No
Salida en HTML	Sí	No
Creación de PDF	Sí (Markdown/HTML/imágenes)	Limitada (solo combinar)
Campos de formulario	Lectura + Escritura	Lectura + Escritura
Cifrado	Lectura + Escritura	Lectura + Escritura
Renderizado	Sí	No
OCR	Integrado	No
Búsqueda	Regex + espacial	No
Tamaño de instalación	~5 MB	~1 MB

Código lado a lado

Extracción de texto

PDF Oxide:

from pdf_oxide import PdfDocument

doc = PdfDocument("report.pdf")
text = doc.extract_text(0)
print(text)

pypdf:

from pypdf import PdfReader

reader = PdfReader("report.pdf")
text = reader.pages[0].extract_text()
print(text)

Extraer todas las páginas

PDF Oxide:

from pdf_oxide import PdfDocument

doc = PdfDocument("book.pdf")
for i in range(doc.page_count()):
    text = doc.extract_text(i)
    print(f"--- Page {i + 1} ---")
    print(text)

pypdf:

from pypdf import PdfReader

reader = PdfReader("book.pdf")
for page in reader.pages:
    text = page.extract_text()
    print(text)

Extracción de imágenes

PDF Oxide:

from pdf_oxide import PdfDocument

doc = PdfDocument("report.pdf")
images = doc.extract_image_bytes(0)
for i, img in enumerate(images):
    with open(f"image_{i}.{img['format']}", "wb") as f:
        f.write(img["data"])

pypdf:

from pypdf import PdfReader

reader = PdfReader("report.pdf")
page = reader.pages[0]
for i, image in enumerate(page.images):
    with open(f"image_{i}.{image.name.split('.')[-1]}", "wb") as f:
        f.write(image.data)

PDFs cifrados

PDF Oxide:

from pdf_oxide import PdfDocument

doc = PdfDocument("encrypted.pdf", password="secret")
text = doc.extract_text(0)

pypdf:

from pypdf import PdfReader

reader = PdfReader("encrypted.pdf")
reader.decrypt("secret")
text = reader.pages[0].extract_text()

Conversión a Markdown

PDF Oxide (integrada):

from pdf_oxide import PdfDocument

doc = PdfDocument("paper.pdf")
md = doc.to_markdown(0, detect_headings=True)
print(md)

pypdf:

# pypdf has no Markdown conversion.
# You would need a separate tool chain.

Detalles del benchmark

Métrica	PDF Oxide	pypdf
Tiempo medio de extracción	0,8 ms	12,1 ms
Tiempo de extracción p99	9 ms	97 ms
Tasa de aprobación (PDFs válidos)	100 % (3.823/3.823)	98,4 % (3.762/3.823)

La implementación en Python puro de pypdf hace que cada operación se ejecute en el intérprete. El núcleo en Rust de PDF Oxide gestiona el análisis, la decodificación de fuentes y el ensamblaje de texto de forma nativa, y solo el resultado final cruza la frontera de Python.

Consulta la metodología completa del benchmark para conocer los detalles del corpus.

Brecha de funciones

pypdf destaca en la manipulación de PDF: combinar, dividir, rotar y cifrar. Pero le falta:

Función	PDF Oxide	pypdf
Conversión a Markdown	`doc.to_markdown(0)`	No disponible
Conversión a HTML	`doc.to_html(0)`	No disponible
Creación de PDF a partir de contenido	`Pdf.from_markdown()`, `Pdf.from_html()`	No disponible
Renderizado a imágenes	Sí	No disponible
OCR para PDFs escaneados	PaddleOCR integrado	No disponible
Búsqueda de texto	`doc.search("query")`	No disponible
Cuadros delimitadores a nivel de carácter	`doc.extract_chars(0)`	Parcial
Validación PDF/A	Sí	No disponible

Si tu flujo de trabajo es puramente combinar/dividir/rotar, el enfoque ligero en Python puro de pypdf es una opción razonable. Para cualquier cosa que implique calidad de extracción de texto, creación o conversión, PDF Oxide es la opción más completa.

Cuándo seguir con pypdf

Necesitas una dependencia en Python puro sin ninguna extensión compilada
Tu caso de uso se limita estrictamente a combinar/dividir/rotar/cifrar, sin extracción de texto
Necesitas los métodos específicos de manipulación de PDF de pypdf para una integración heredada

Páginas relacionadas

Benchmarks de rendimiento — resultados completos del corpus
vs Bibliotecas Python de PDF — todas las bibliotecas Python comparadas
Primeros pasos con Python — instalación y primera extracción