What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

Primeiros Passos com o PDF Oxide (C++)

O PDF Oxide oferece bindings C++17 idiomáticos e header-only sobre seu núcleo em Rust — extração de texto com média de 0,8 ms e 100% de aprovação em 3.830 PDFs. Os handles são wrappers RAII move-only, strings e buffers nativos são copiados para você em std::string / std::vector<std::uint8_t>, e os códigos de erro da C ABI são lançados como pdf_oxide::Error. Novidade da v0.3.69.

Instalação

Os bindings são um único header (cpp/include/pdf_oxide/pdf_oxide.hpp) que se vincula ao cdylib nativo. Compile a biblioteca uma vez a partir da raiz do repositório e, em seguida, aponte o CMake para ela:

# 1. build the native library (shipped binding feature set)
cargo build --release --lib \
  --features ocr,rendering,signatures,barcodes,tsa-client,system-fonts

# 2. configure + build with the header-only wrapper
cmake -S cpp -B cpp/build -DCMAKE_BUILD_TYPE=Release \
  -DPDF_OXIDE_LIB_DIR="$PWD/target/release"
cmake --build cpp/build -j

Depois, inclua o header nas suas próprias translation units:

#include <pdf_oxide/pdf_oxide.hpp>

O header em C declara um tipo global Pdf, então não use using namespace pdf_oxide;. Qualifique os nomes (pdf_oxide::Pdf, pdf_oxide::Document) ou traga-os com declarações using específicas.

Guia Rápido

Abra um PDF e extraia o texto de uma página na ordem de leitura. Toda chamada passível de falha lança pdf_oxide::Error, então envolva seu código em um try/catch.

#include <pdf_oxide/pdf_oxide.hpp>
#include <iostream>

int main() {
    try {
        auto doc = pdf_oxide::Document::open("research-paper.pdf");

        std::cout << "pages: " << doc.page_count() << "\n";

        pdf_oxide::Version v = doc.version();
        std::cout << "version: " << static_cast<int>(v.major) << "."
                  << static_cast<int>(v.minor) << "\n";

        std::string text = doc.extract_text(0);   // 0-based page index
        std::cout << text << "\n";
        return 0;
    } catch (const pdf_oxide::Error& e) {
        std::cerr << "error: " << e.what() << "\n";
        return 1;
    }
}

Para abrir um PDF que já está na memória, use Document::open_from_bytes:

std::vector<std::uint8_t> bytes = load_pdf_bytes();   // from S3, HTTP, a DB…
auto doc = pdf_oxide::Document::open_from_bytes(bytes);
std::string text = doc.extract_text(0);

Conversão para Markdown e HTML

Converta uma única página — ou o documento inteiro — para Markdown ou HTML.

auto doc = pdf_oxide::Document::open("paper.pdf");

std::string page_md = doc.to_markdown(0);   // one page
std::string all_md   = doc.to_markdown_all(); // every page

std::string page_html = doc.to_html(0);
std::string all_html  = doc.to_html_all();

std::cout << all_md << "\n";

Extração no Nível de Palavra

extract_words(page_index) retorna um std::vector<pdf_oxide::Word> com o texto, a bounding box e os metadados de fonte de cada palavra da página.

auto doc   = pdf_oxide::Document::open("paper.pdf");
auto words = doc.extract_words(0);

for (const auto& w : words) {
    std::cout << "'" << w.text << "'"
              << " at (" << w.bbox.x << ", " << w.bbox.y << ")"
              << " size=" << w.font_size
              << " font=" << w.font_name
              << (w.bold ? " [bold]" : "") << "\n";
}

Campos de pdf_oxide::Word:

Campo	Tipo	Descrição
`text`	`std::string`	O texto da palavra
`bbox`	`Bbox`	Caixa delimitadora (`x`, `y`, `width`, `height`)
`font_name`	`std::string`	Nome da fonte PostScript
`font_size`	`float`	Tamanho da fonte em pontos
`bold`	`bool`	Se o trecho está em negrito

A extração no nível de caractere e de linha segue o mesmo formato: extract_chars(0) produz registros Char (codepoint Unicode + bbox), e extract_text_lines(0) produz registros TextLine (text, bbox, word_count).

Pesquisa

Pesquise em uma única página com search(page_index, term, case_sensitive), ou no documento inteiro com search_all(term, case_sensitive). Ambas retornam um std::vector<pdf_oxide::SearchResult>.

auto doc = pdf_oxide::Document::open("manual.pdf");

// One page
auto hits = doc.search(0, "configuration", /*case_sensitive=*/false);

// Every page
auto all_hits = doc.search_all("configuration", /*case_sensitive=*/false);
for (const auto& r : all_hits) {
    std::cout << "page " << r.page << ": '" << r.text << "'"
              << " at (" << r.bbox.x << ", " << r.bbox.y << ")\n";
}

Criando um PDF

O builder pdf_oxide::Pdf cria documentos a partir de Markdown, HTML ou texto simples. Serialize com to_bytes() ou grave diretamente em disco com save().

// From Markdown
auto pdf = pdf_oxide::Pdf::from_markdown("# Hello World\n\nThis is a PDF.\n");
pdf.save("output.pdf");

// From HTML
auto invoice = pdf_oxide::Pdf::from_html("<h1>Invoice</h1><p>Amount: $42</p>");
invoice.save("invoice.pdf");

// From plain text, or grab the bytes for in-memory use
auto notes = pdf_oxide::Pdf::from_text("Plain text body.");
std::vector<std::uint8_t> bytes = notes.to_bytes();

Faça o round-trip de um PDF recém-criado de volta para um Document:

auto pdf  = pdf_oxide::Pdf::from_markdown("# Title\n\nbody\n");
auto doc  = pdf_oxide::Document::open_from_bytes(pdf.to_bytes());
std::cout << doc.to_markdown_all() << "\n";

Tratamento de Erros

Toda operação passível de falha lança pdf_oxide::Error, que carrega a mensagem de erro nativa (what()) e o código de erro bruto da C ABI (code()). Os handles também podem ser fechados explicitamente, de forma idempotente: doc.close() libera o handle nativo antecipadamente, e usá-lo após o fechamento lança uma exceção.

#include <pdf_oxide/pdf_oxide.hpp>
#include <iostream>

int main() {
    try {
        auto doc = pdf_oxide::Document::open("missing.pdf");
        std::cout << doc.extract_text(0) << "\n";
        doc.close();   // optional — happens automatically at scope exit
    } catch (const pdf_oxide::Error& e) {
        std::cerr << "pdf error (" << e.code() << "): " << e.what() << "\n";
        return 1;
    }
}

Próximos Passos

Primeiros Passos com Rust – usando o PDF Oxide a partir de Rust
Primeiros Passos com Python – usando o PDF Oxide a partir de Python
Extração de Texto – opções de extração e receitas detalhadas
Criação de PDF – criação avançada com metadados e criptografia
Edição – modificando PDFs existentes, anotações e campos de formulário