What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

Primeros pasos con PDF Oxide (C++)

PDF Oxide incluye bindings header-only e idiomáticos para C++17 sobre su núcleo en Rust: extracción de texto en 0,8 ms de media y 100 % de aciertos sobre 3830 PDFs. Los handles son envoltorios RAII move-only, las cadenas y los búferes nativos se copian por ti en std::string / std::vector<std::uint8_t>, y los códigos de error del C ABI se lanzan como pdf_oxide::Error. Novedad en la v0.3.69.

Instalación

Los bindings consisten en una única cabecera (cpp/include/pdf_oxide/pdf_oxide.hpp) que enlaza con la cdylib nativa. Compila la biblioteca una vez desde la raíz del repositorio y luego apunta CMake hacia ella:

# 1. build the native library (shipped binding feature set)
cargo build --release --lib \
  --features ocr,rendering,signatures,barcodes,tsa-client,system-fonts

# 2. configure + build with the header-only wrapper
cmake -S cpp -B cpp/build -DCMAKE_BUILD_TYPE=Release \
  -DPDF_OXIDE_LIB_DIR="$PWD/target/release"
cmake --build cpp/build -j

Después, incluye la cabecera en tus propias unidades de traducción:

#include <pdf_oxide/pdf_oxide.hpp>

La cabecera de C declara un tipo global Pdf, así que no uses using namespace pdf_oxide;. Cualifica los nombres (pdf_oxide::Pdf, pdf_oxide::Document) o impórtalos con declaraciones using específicas.

Inicio rápido

Abre un PDF y extrae el texto en orden de lectura de una página. Toda llamada que pueda fallar lanza pdf_oxide::Error, así que envuelve tu código en un try/catch.

#include <pdf_oxide/pdf_oxide.hpp>
#include <iostream>

int main() {
    try {
        auto doc = pdf_oxide::Document::open("research-paper.pdf");

        std::cout << "pages: " << doc.page_count() << "\n";

        pdf_oxide::Version v = doc.version();
        std::cout << "version: " << static_cast<int>(v.major) << "."
                  << static_cast<int>(v.minor) << "\n";

        std::string text = doc.extract_text(0);   // 0-based page index
        std::cout << text << "\n";
        return 0;
    } catch (const pdf_oxide::Error& e) {
        std::cerr << "error: " << e.what() << "\n";
        return 1;
    }
}

Para abrir un PDF que ya está en memoria, usa Document::open_from_bytes:

std::vector<std::uint8_t> bytes = load_pdf_bytes();   // from S3, HTTP, a DB…
auto doc = pdf_oxide::Document::open_from_bytes(bytes);
std::string text = doc.extract_text(0);

Conversión a Markdown y HTML

Convierte una sola página —o el documento completo— a Markdown o HTML.

auto doc = pdf_oxide::Document::open("paper.pdf");

std::string page_md = doc.to_markdown(0);   // one page
std::string all_md   = doc.to_markdown_all(); // every page

std::string page_html = doc.to_html(0);
std::string all_html  = doc.to_html_all();

std::cout << all_md << "\n";

Extracción a nivel de palabra

extract_words(page_index) devuelve un std::vector<pdf_oxide::Word> con el texto, el recuadro delimitador y los metadatos de fuente de cada palabra de la página.

auto doc   = pdf_oxide::Document::open("paper.pdf");
auto words = doc.extract_words(0);

for (const auto& w : words) {
    std::cout << "'" << w.text << "'"
              << " at (" << w.bbox.x << ", " << w.bbox.y << ")"
              << " size=" << w.font_size
              << " font=" << w.font_name
              << (w.bold ? " [bold]" : "") << "\n";
}

Campos de pdf_oxide::Word:

Campo	Tipo	Descripción
`text`	`std::string`	El texto de la palabra
`bbox`	`Bbox`	Recuadro delimitador (`x`, `y`, `width`, `height`)
`font_name`	`std::string`	Nombre PostScript de la fuente
`font_size`	`float`	Tamaño de fuente en puntos
`bold`	`bool`	Si el fragmento está en negrita

La extracción a nivel de carácter y de línea sigue la misma forma: extract_chars(0) produce registros Char (punto de código Unicode + bbox) y extract_text_lines(0) produce registros TextLine (text, bbox, word_count).

Búsqueda

Busca en una sola página con search(page_index, term, case_sensitive), o en todo el documento con search_all(term, case_sensitive). Ambas devuelven un std::vector<pdf_oxide::SearchResult>.

auto doc = pdf_oxide::Document::open("manual.pdf");

// One page
auto hits = doc.search(0, "configuration", /*case_sensitive=*/false);

// Every page
auto all_hits = doc.search_all("configuration", /*case_sensitive=*/false);
for (const auto& r : all_hits) {
    std::cout << "page " << r.page << ": '" << r.text << "'"
              << " at (" << r.bbox.x << ", " << r.bbox.y << ")\n";
}

Crear un PDF

El builder pdf_oxide::Pdf crea documentos a partir de Markdown, HTML o texto plano. Serialízalos con to_bytes() o escríbelos directamente en disco con save().

// From Markdown
auto pdf = pdf_oxide::Pdf::from_markdown("# Hello World\n\nThis is a PDF.\n");
pdf.save("output.pdf");

// From HTML
auto invoice = pdf_oxide::Pdf::from_html("<h1>Invoice</h1><p>Amount: $42</p>");
invoice.save("invoice.pdf");

// From plain text, or grab the bytes for in-memory use
auto notes = pdf_oxide::Pdf::from_text("Plain text body.");
std::vector<std::uint8_t> bytes = notes.to_bytes();

Convierte de ida y vuelta un PDF recién creado de nuevo a un Document:

auto pdf  = pdf_oxide::Pdf::from_markdown("# Title\n\nbody\n");
auto doc  = pdf_oxide::Document::open_from_bytes(pdf.to_bytes());
std::cout << doc.to_markdown_all() << "\n";

Manejo de errores

Toda operación que pueda fallar lanza pdf_oxide::Error, que lleva consigo el mensaje de error nativo (what()) y el código de error en crudo del C ABI (code()). Los handles también se pueden cerrar de forma explícita e idempotente: doc.close() libera el handle nativo de inmediato, y usarlo tras cerrarlo lanza una excepción.

#include <pdf_oxide/pdf_oxide.hpp>
#include <iostream>

int main() {
    try {
        auto doc = pdf_oxide::Document::open("missing.pdf");
        std::cout << doc.extract_text(0) << "\n";
        doc.close();   // optional — happens automatically at scope exit
    } catch (const pdf_oxide::Error& e) {
        std::cerr << "pdf error (" << e.code() << "): " << e.what() << "\n";
        return 1;
    }
}

Siguientes pasos

Primeros pasos con Rust – usar PDF Oxide desde Rust
Primeros pasos con Python – usar PDF Oxide desde Python
Extracción de texto – opciones y recetas detalladas de extracción
Creación de PDF – creación avanzada con metadatos y cifrado
Edición – modificar PDFs existentes, anotaciones y campos de formulario