What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

Primeiros Passos com o PDF Oxide ®

O PDF Oxide oferece bindings idiomáticos para R para extração veloz de texto, Markdown e HTML de PDF — extração de texto com média de 0,8ms e 100% de aprovação em 3.830 PDFs — apoiados pelo mesmo núcleo Rust de todos os outros bindings. O pacote R encapsula a C ABI do pdf_oxide por meio da interface .Call do R; os handles de documento são external pointers do R liberados pelo coletor de lixo, e os índices de página começam em 0 para acompanhar o engine subjacente.

Instalação

O pacote R faz o link com o cdylib de feature padrão. Compile a biblioteca nativa e, em seguida, instale o pacote apontando-o para o header e o cdylib:

# 1. build the native library (shipped binding feature set)
cargo build --release --lib \
  --features ocr,rendering,signatures,barcodes,tsa-client,system-fonts

# 2. install the R package
PDF_OXIDE_INCLUDE_DIR="$PWD/include" PDF_OXIDE_LIB_DIR="$PWD/target/release" \
  R CMD INSTALL r/

Em tempo de execução, deixe o cdylib visível para o linker:

LD_LIBRARY_PATH="$PWD/target/release" Rscript your_script.R

Abrindo um PDF

Abra um arquivo com pdf_open() e, em seguida, inspecione seus metadados. pdf_version() retorna uma lista nomeada com major e minor.

library(pdfoxide)

doc <- pdf_open("research-paper.pdf")

pdf_page_count(doc)               # number of pages
v <- pdf_version(doc)
cat("PDF version:", paste(v$major, v$minor, sep = "."), "\n")
pdf_is_encrypted(doc)             # logical

Extração de Texto

Extraia o texto em ordem de leitura de uma única página (índice baseado em 0) com pdf_extract_text().

library(pdfoxide)

doc <- pdf_open("report.pdf")
text <- pdf_extract_text(doc, 0)  # 0-based page index
cat(text)

Percorra todas as páginas usando pdf_page_count():

doc <- pdf_open("book.pdf")
for (page in seq_len(pdf_page_count(doc)) - 1L) {   # 0-based indices
  cat("--- Page", page + 1L, "---\n")
  cat(pdf_extract_text(doc, page), "\n")
}

Markdown e HTML

Converta uma única página para Markdown ou HTML, ou converta o documento inteiro de uma só vez.

library(pdfoxide)

doc <- pdf_open("paper.pdf")

md  <- pdf_to_markdown(doc, 0)    # one page as Markdown
html <- pdf_to_html(doc, 0)       # one page as HTML

all_md   <- pdf_to_markdown_all(doc)    # whole document
all_text <- pdf_to_plain_text_all(doc)  # whole document, plain text

cat(all_md)

Palavras, Caracteres e Linhas

A extração de elementos retorna listas de registros com bounding boxes posicionais. Cada bbox é uma lista nomeada com x, y, width e height.

library(pdfoxide)

doc <- pdf_open("paper.pdf")

# Positioned words — each has $text, $bbox, $font_name, $font_size, $bold
words <- pdf_extract_words(doc, 0)
for (w in head(words, 10)) {
  cat(sprintf("'%s' at (%.1f, %.1f) font=%s bold=%s\n",
              w$text, w$bbox$x, w$bbox$y, w$font_name, w$bold))
}

# Reading-order lines — each has $text, $bbox, $word_count
lines <- pdf_extract_text_lines(doc, 0)
for (ln in head(lines, 5)) {
  cat(sprintf("[%d words] %s\n", ln$word_count, ln$text))
}

# Positioned characters — $character is the Unicode codepoint (integer)
chars <- pdf_extract_chars(doc, 0)
for (ch in head(chars, 10)) {
  cat(sprintf("'%s' at (%.1f, %.1f) size=%.1f\n",
              intToUtf8(ch$character), ch$bbox$x, ch$bbox$y, ch$font_size))
}

Tabelas

pdf_extract_tables() retorna as tabelas detectadas. Cada registro de tabela carrega row_count, col_count, has_header e uma matriz de caracteres cells indexada a partir de 1 como tbl$cells[row, col].

library(pdfoxide)

doc <- pdf_open("statement.pdf")
tables <- pdf_extract_tables(doc, 0)

for (tbl in tables) {
  cat(sprintf("Table: %d rows x %d cols (header=%s)\n",
              tbl$row_count, tbl$col_count, tbl$has_header))
  for (r in seq_len(tbl$row_count)) {
    cat(paste(tbl$cells[r, ], collapse = " | "), "\n")
  }
}

Busca

Busque em uma única página com pdf_search() ou no documento inteiro com pdf_search_all(). Ambos aceitam um flag opcional case_sensitive (padrão FALSE) e retornam registros com text, page e bbox.

library(pdfoxide)

doc <- pdf_open("manual.pdf")

# Whole document
hits <- pdf_search_all(doc, "configuration")
for (h in hits) {
  cat(sprintf("Page %d: '%s' at (%.0f, %.0f)\n",
              h$page, h$text, h$bbox$x, h$bbox$y))
}

# Single page, case-sensitive
page_hits <- pdf_search(doc, 0, "Configuration", case_sensitive = TRUE)

Abrindo a Partir de Bytes

Abra um PDF que esteja na memória — útil ao ler do S3, de HTTP ou de um banco de dados — com pdf_open_from_bytes(), que recebe um vetor raw.

library(pdfoxide)

bytes <- readBin("report.pdf", "raw", file.info("report.pdf")$size)
doc <- pdf_open_from_bytes(bytes)
cat(pdf_extract_text(doc, 0))

PDFs Protegidos por Senha

Abra um documento criptografado com pdf_open_with_password() ou chame pdf_authenticate() após abri-lo (ele retorna TRUE em caso de sucesso e FALSE para uma senha incorreta).

library(pdfoxide)

doc <- pdf_open_with_password("confidential.pdf", "secret")
cat(pdf_extract_text(doc, 0))

Criando PDFs

As funções de builder criam um pdfoxide_pdf a partir de Markdown, HTML ou texto puro. Salve-o em um caminho com pdf_save() ou serialize para um vetor raw com pdf_to_bytes() (que pode ser reaberto com pdf_open_from_bytes()).

library(pdfoxide)

pdf <- pdf_from_markdown("# Hello World\n\nThis is a PDF.\n")
pdf_save(pdf, "output.pdf")

pdf_from_html("<h1>Invoice</h1><p>Amount due: $42.00</p>") |>
  pdf_save("invoice.pdf")

pdf_from_text("Plain text document.\n\nSecond paragraph.") |>
  pdf_save("notes.pdf")

# Round-trip through bytes
bytes <- pdf_to_bytes(pdf_from_markdown("# In memory\n\nbody\n"))
doc <- pdf_open_from_bytes(bytes)
cat(pdf_extract_text(doc, 0))

Próximos Passos

Primeiros Passos com Python – usando o PDF Oxide a partir do Python
Primeiros Passos com Rust – o crate Rust subjacente
Extração de Texto – opções e receitas detalhadas de extração
Criação de PDF – criação avançada com builders, criptografia e metadados