What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

pdfplumber vs PyMuPDF

pdfplumber y PyMuPDF son bibliotecas PDF populares para Python, pero ambas te obligan a hacer concesiones. pdfplumber es excelente para tablas pero 29× más lenta de lo necesario. PyMuPDF es rápida pero restringida por la licencia AGPL-3.0 que bloquea el uso comercial. Esta página compara ambas — y muestra por qué PDF Oxide es una mejor opción para la mayoría de los casos de uso.

La respuesta corta: PDF Oxide es 29× más rápido que pdfplumber, 5.8× más rápido que PyMuPDF, con licencia MIT, y maneja texto, imágenes, formularios, cifrado, salida Markdown y OCR — todo en una biblioteca. El único área donde pdfplumber aún lidera es la extracción compleja de tablas con depuración visual.

Comparación rápida

	pdfplumber	PyMuPDF	PDF Oxide
Licencia	MIT	AGPL-3.0	MIT
Lenguaje	Python puro	C (MuPDF)	Rust + PyO3
Tiempo promedio de extracción	23.2ms	4.6ms	0.8ms
Tiempo de extracción p99	189ms	28ms	9ms
Tasa de éxito (3,830 PDFs)	98.8%	99.3%	100%
Extracción de texto	Sí	Sí	Sí
Posiciones de caracteres	Sí	Sí	Sí
Extracción de tablas	Avanzada	Básica	Básica
Extracción de imágenes	No	Sí	Sí
Depuración visual	Sí	No	No
Creación de PDF	No	Sí	Sí
Edición de PDF	No	Sí	Sí
Salida Markdown	No	No	Sí
Salida HTML	No	No	Sí
Campos de formulario	Solo lectura	Lectura + Escritura	Lectura + Escritura
Cifrado	No	Lectura + Escritura	Lectura + Escritura
Renderizado	No	Sí	Sí
OCR	No	Tesseract	Integrado (PaddleOCR)
Tamaño de instalación	~1 MB	~20 MB	~5 MB
Versiones de Python	3.8+	3.8–3.12	3.8–3.14

Benchmarks de velocidad

Las tres bibliotecas probadas en el mismo corpus de 3,830 PDFs de tres suites de prueba públicas independientes (veraPDF, Mozilla pdf.js, DARPA SafeDocs). El corpus cubre cada versión de la especificación PDF (1.0–2.0), archivos cifrados, documentos malformados, codificaciones CJK y layouts complejos.

Métrica	pdfplumber	PyMuPDF	PDF Oxide
Tiempo promedio de extracción	23.2ms	4.6ms	0.8ms
Tiempo de extracción p99	189ms	28ms	9ms
Relativo a PDF Oxide	29× más lento	5.8× más lento	1×
Tasa de éxito (PDFs válidos)	98.8% (3,777/3,823)	99.3% (3,796/3,823)	100% (3,823/3,823)

PyMuPDF es aproximadamente 5× más rápida que pdfplumber porque delega todo el parseo a la biblioteca C de MuPDF. pdfplumber se construye sobre pdfminer para el parseo y luego agrega su propia capa de análisis espacial — ambos escritos en Python puro. PDF Oxide maneja todo el parseo, decodificación de fuentes y ensamblaje de texto en Rust compilado ejecutándose directamente en el proceso Python vía PyO3, lo que explica su ventaja de 5.8× sobre PyMuPDF y 29× sobre pdfplumber.

Qué significan los números en la práctica

Carga de trabajo	pdfplumber	PyMuPDF	PDF Oxide
100 PDFs	2.3 segundos	0.46 segundos	0.08 segundos
1,000 PDFs	23 segundos	4.6 segundos	0.8 segundos
10,000 PDFs	3.9 minutos	46 segundos	8 segundos
100,000 PDFs	39 minutos	7.7 minutos	80 segundos

Para scripts puntuales que procesan un puñado de archivos, la diferencia de velocidad es irrelevante. Para pipelines de producción que procesan miles de documentos diariamente, la brecha entre 39 minutos y 80 segundos cambia las decisiones de arquitectura.

Extracción de tablas

La extracción de tablas es la razón principal por la que los desarrolladores eligen pdfplumber sobre PyMuPDF. Aquí es donde pdfplumber genuinamente destaca.

pdfplumber: Parseo estructurado de tablas

pdfplumber proporciona extracción dedicada de tablas con detección de líneas configurable, fusión de celdas y depuración visual:

import pdfplumber

with pdfplumber.open("invoice.pdf") as pdf:
    page = pdf.pages[0]

    # Extraer todas las tablas como datos estructurados
    tables = page.extract_tables()
    for table in tables:
        for row in table:
            print(row)

    # Afinar la detección con configuraciones personalizadas
    tables = page.extract_tables({
        "vertical_strategy": "text",
        "horizontal_strategy": "lines",
        "snap_tolerance": 5,
    })

    # Depuración visual: renderizar página con límites de tabla detectados
    im = page.to_image()
    im.debug_tablefinder()
    im.save("debug.png")

pdfplumber devuelve datos estructurados de filas/columnas y maneja celdas fusionadas, encabezados que abarcan columnas y tablas sin bordes. La superposición de depuración visual es invaluable para ajustar los parámetros de extracción en layouts difíciles.

PyMuPDF: Detección básica de tablas

PyMuPDF agregó detección de tablas en versiones recientes, pero es menos madura que los algoritmos de pdfplumber:

import fitz

doc = fitz.open("invoice.pdf")
page = doc[0]

# Buscador de tablas integrado de PyMuPDF (agregado en v1.23)
tabs = page.find_tables()
for table in tabs:
    df = table.to_pandas()  # requiere pandas
    print(df)

La extracción de tablas de PyMuPDF funciona para tablas simples basadas en cuadrícula con bordes visibles. Tiene dificultades con layouts sin bordes, encabezados multinivel y celdas que abarcan múltiples filas o columnas — exactamente los casos donde pdfplumber es más fuerte.

PDF Oxide: Salida de tablas en Markdown

PDF Oxide convierte tablas a sintaxis Markdown como parte de su pipeline de salida estructurada:

from pdf_oxide import PdfDocument

doc = PdfDocument("invoice.pdf")

# Las tablas se detectan y convierten a formato de tabla Markdown
md = doc.to_markdown(0, detect_headings=True)
print(md)

# También disponible como HTML con etiquetas de tabla
html = doc.to_html(0)
print(html)

La detección de tablas de PDF Oxide es funcional para layouts de cuadrícula estándar y produce salida limpia en Markdown o HTML. Para tablas complejas con celdas fusionadas, diseños sin bordes o encabezados que abarcan columnas, los algoritmos dedicados de pdfplumber siguen siendo más robustos.

Resumen de extracción de tablas

Capacidad	pdfplumber	PyMuPDF	PDF Oxide
Tablas simples con bordes	Sí	Sí	Sí
Tablas sin bordes	Sí	Limitado	Limitado
Celdas fusionadas	Sí	Limitado	Limitado
Encabezados multinivel	Sí	No	No
Detección configurable	Sí	Limitado	No
Depuración visual	Sí	No	No
Formato de salida	Listas Python	DataFrames pandas	Markdown / HTML
Velocidad	Lenta (Python puro)	Rápida	La más rápida

Si la extracción compleja de tablas es tu único caso de uso, pdfplumber es la mejor herramienta. Si necesitas tablas junto con extracción de texto rápida, extracción de imágenes o creación de PDF, PDF Oxide cubre más terreno.

Extracción de texto

Para extracción de texto plano, ambas bibliotecas cumplen pero difieren en velocidad y diseño de API.

pdfplumber

import pdfplumber

with pdfplumber.open("report.pdf") as pdf:
    page = pdf.pages[0]
    text = page.extract_text()
    print(text)

PyMuPDF

import fitz

doc = fitz.open("report.pdf")
page = doc[0]
text = page.get_text()
print(text)

PDF Oxide

from pdf_oxide import PdfDocument

doc = PdfDocument("report.pdf")
text = doc.extract_text(0)
print(text)

Las tres producen una salida de texto comparable para PDFs bien formados. PDF Oxide alcanza 99.5% de paridad de texto con PyMuPDF en el corpus completo, con el 0.5% de diferencia restante en la normalización de espacios en blanco y manejo de ligaduras.

Licenciamiento

Esta es la diferencia más importante entre pdfplumber y PyMuPDF para proyectos comerciales.

	pdfplumber	PyMuPDF	PDF Oxide
Licencia	MIT	AGPL-3.0	MIT
Producto comercial	Sí	Requiere licencia comercial	Sí
SaaS de código cerrado	Sí	Requiere licencia comercial	Sí
Distribución Docker	Sí	Requiere licencia comercial	Sí
Herramientas internas	Sí	Sí	Sí
Proyecto de código abierto	Sí	Sí (si es compatible con AGPL)	Sí

El problema AGPL de PyMuPDF

PyMuPDF usa MuPDF, que tiene licencia AGPL-3.0. Si distribuyes software que incluye PyMuPDF — incluyendo SaaS, aplicaciones web y contenedores Docker — tu código debe ser publicado como código abierto bajo AGPL o debes comprar una licencia comercial de Artifex.

Artifex no publica precios de licencias comerciales. Debes contactar a su equipo de ventas para una cotización. Las licencias son típicamente por aplicación, se renuevan anualmente, sin nivel gratuito ni excepción para startups.

pdfplumber y PDF Oxide son ambos MIT

Tanto pdfplumber como PDF Oxide tienen licencia MIT. Usa cualquiera en cualquier proyecto — comercial, propietario, SaaS o código abierto — sin obligaciones. Si el licenciamiento es tu principal preocupación y estás eligiendo entre pdfplumber y PyMuPDF, pdfplumber (o PDF Oxide) es la opción más segura.

PDFs cifrados

El manejo de cifrado es una brecha significativa en las funcionalidades de pdfplumber y un punto de dolor común para desarrolladores que trabajan con documentos protegidos por contraseña.

pdfplumber: Sin soporte de cifrado

pdfplumber no puede abrir PDFs cifrados o protegidos por contraseña en absoluto. Si pasas un PDF cifrado a pdfplumber, lanza un error. Debes descifrar el archivo primero usando otra herramienta:

import pdfplumber

# Esto fallará con PDFs cifrados:
with pdfplumber.open("encrypted.pdf") as pdf:
    # lanza pdfminer.pdfparser.PDFSyntaxError o similar
    pass

Un workaround común es usar PyMuPDF o pypdf para descifrar el archivo primero, luego pasarlo a pdfplumber para extracción de tablas — agregando otra dependencia a tu pipeline.

PyMuPDF: Soporte completo de cifrado

import fitz

doc = fitz.open("encrypted.pdf")
doc.authenticate("password")
page = doc[0]
text = page.get_text()

PDF Oxide: Soporte completo de cifrado

from pdf_oxide import PdfDocument

doc = PdfDocument("encrypted.pdf", password="password")
text = doc.extract_text(0)

PDF Oxide maneja todos los métodos estándar de cifrado PDF (RC4, AES-128, AES-256) tanto para lectura como escritura. Sin dependencias adicionales ni preprocesamiento requerido.

Extracción de imágenes

Otra brecha en las funcionalidades de pdfplumber. pdfplumber no extrae imágenes incrustadas de PDFs.

PyMuPDF

import fitz

doc = fitz.open("report.pdf")
page = doc[0]
for i, img in enumerate(page.get_images()):
    xref = img[0]
    base_image = doc.extract_image(xref)
    with open(f"image_{i}.{base_image['ext']}", "wb") as f:
        f.write(base_image["image"])

PDF Oxide

from pdf_oxide import PdfDocument

doc = PdfDocument("report.pdf")
images = doc.extract_image_bytes(0)
for i, img in enumerate(images):
    with open(f"image_{i}.{img['format']}", "wb") as f:
        f.write(img["data"])

Si tu pipeline requiere extraer tanto texto como imágenes de PDFs, pdfplumber no puede manejar la parte de imágenes. Necesitas PyMuPDF, PDF Oxide o pypdfium2 para eso.

Salida Markdown y HTML

Ni pdfplumber ni PyMuPDF proporcionan conversión Markdown o HTML integrada. Esta es una función única de PDF Oxide.

from pdf_oxide import PdfDocument

doc = PdfDocument("paper.pdf")

# Markdown con detección de encabezados y formato de tablas
md = doc.to_markdown(0, detect_headings=True)
print(md)

# HTML con etiquetas semánticas
html = doc.to_html(0)
print(html)

Para pipelines de LLM, sistemas RAG y flujos de trabajo de conversión de documentos, la salida Markdown estructurada elimina la necesidad de un paso de conversión separado. Los usuarios de PyMuPDF típicamente recurren al paquete separado pymupdf4llm, que es 69× más lento que la conversión integrada de PDF Oxide.

Cuándo elegir cada biblioteca

Elige pdfplumber si:

La extracción compleja de tablas es tu caso de uso principal. Los algoritmos de tablas de pdfplumber manejan celdas fusionadas, tablas sin bordes y encabezados que abarcan columnas mejor que cualquier otra biblioteca Python.
Necesitas depuración visual. pdfplumber puede renderizar imágenes de página anotadas mostrando líneas, caracteres y límites de tabla detectados — invaluable para ajustar la extracción en documentos difíciles.
Quieres una solución de Python puro. Sin dependencias compiladas, se instala en cualquier lugar donde Python se ejecute.
La velocidad no es una preocupación. Si procesas menos de cien archivos a la vez, los 23ms promedio son perfectamente aceptables.

Elige PyMuPDF si:

Ya tienes una licencia comercial de MuPDF y dependes del renderizado específico de MuPDF o exportación SVG.
Necesitas renderizado de alta fidelidad. El motor de renderizado de MuPDF es maduro y maneja PDFs complejos bien.
Tu proyecto es compatible con AGPL. Si estás construyendo software de código abierto bajo AGPL o una licencia compatible, el licenciamiento de PyMuPDF no es una preocupación.
Necesitas OCR vía Tesseract. PyMuPDF tiene integración de Tesseract incorporada para documentos escaneados.

Elige PDF Oxide si:

Necesitas velocidad y amplia cobertura de funciones. 0.8ms promedio de extracción — 5.8× más rápido que PyMuPDF, 29× más rápido que pdfplumber — con texto, imágenes, formularios, creación y cifrado en una biblioteca.
Quieres licencia MIT sin sacrificar velocidad. pdfplumber es MIT pero lenta. PyMuPDF es rápida pero AGPL. PDF Oxide es ambas cosas: MIT y rápida.
Necesitas salida Markdown o HTML. Conversión estructurada integrada para pipelines de LLM y sistemas RAG.
Necesitas soporte de PDFs cifrados con licencia permisiva. pdfplumber no puede manejar cifrado. PyMuPDF puede pero requiere cumplimiento con AGPL. PDF Oxide maneja cifrado bajo MIT.
Quieres una sola biblioteca para extracción, creación y edición. Tanto pdfplumber como PyMuPDF requieren herramientas adicionales para partes del flujo de trabajo PDF. PDF Oxide cubre extracción, creación, edición, renderizado y validación.

Usar PDF Oxide + pdfplumber juntos:

Para pipelines que necesitan extracción de texto rápida, extracción de imágenes y parseo complejo de tablas, usa PDF Oxide para el pipeline general y pdfplumber para tablas:

from pdf_oxide import PdfDocument
import pdfplumber

# Extracción rápida de texto e imágenes con PDF Oxide
doc = PdfDocument("report.pdf")
text = doc.extract_text(0)
images = doc.extract_image_bytes(0)

# Extracción compleja de tablas con pdfplumber
with pdfplumber.open("report.pdf") as pdf:
    tables = pdf.pages[0].extract_tables()

Instalación

# pdfplumber
pip install pdfplumber

# PyMuPDF
pip install pymupdf

# PDF Oxide
pip install pdf_oxide

Las tres se instalan vía pip. pdfplumber y PDF Oxide tienen licencia MIT. PyMuPDF es AGPL-3.0 — revisa las implicaciones de licenciamiento antes de agregarlo a un proyecto comercial.

El veredicto

pdfplumber y PyMuPDF resuelven partes del problema cada una. PDF Oxide resuelve todo el problema.

Qué te importa	Mejor opción
Máxima velocidad	PDF Oxide (0.8ms — 29× más rápido que pdfplumber)
Extracción compleja de tablas	pdfplumber (depuración visual, celdas fusionadas)
Licencia permisiva + velocidad	PDF Oxide — pdfplumber es MIT pero lenta, PyMuPDF es rápida pero AGPL
PDFs cifrados	PDF Oxide o PyMuPDF — pdfplumber no puede descifrar
Extracción de imágenes	PDF Oxide o PyMuPDF — pdfplumber no tiene soporte de imágenes
Salida Markdown/HTML	PDF Oxide — única biblioteca con conversión integrada
OCR sin Tesseract	PDF Oxide — PaddleOCR integrado
Una biblioteca para todo	PDF Oxide — extracción, creación, edición, cifrado, OCR

A menos que todo tu flujo de trabajo sea extracción compleja de tablas (tablas sin bordes, celdas fusionadas, depuración visual), PDF Oxide reemplaza tanto a pdfplumber como a PyMuPDF — más rápido, más funciones, licencia MIT.

Comienza en 10 segundos:

pip install pdf_oxide

from pdf_oxide import PdfDocument

doc = PdfDocument("report.pdf")
text = doc.extract_text(0)       # 29× más rápido que pdfplumber
md = doc.to_markdown(0)          # integrado, sin paquete separado
images = doc.extract_image_bytes(0)   # pdfplumber no puede hacer esto

Páginas relacionadas

PDF Oxide vs PyMuPDF – comparación detallada con guía de migración
PDF Oxide vs pdfplumber – comparación detallada con ejemplos de código
vs Bibliotecas PDF para Python – todas las bibliotecas Python comparadas
Benchmarks de rendimiento – metodología completa del benchmark del corpus
Extraer tablas de PDF – guía de extracción de tablas
Primeros pasos con Python – instalación y primera extracción