What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

Primeiros passos com o PDF Oxide (Swift)

O PDF Oxide é a biblioteca de PDF mais rápida com extração de texto integrada — média de 0,8 ms e 100% de aprovação em 3.830 PDFs. O binding de Swift, novidade na v0.3.69, encapsula o núcleo em Rust por meio de uma C ABI: os handles pertencem a classes (liberados no deinit), os buffers em C são copiados para String/[UInt8] do Swift e os códigos de erro são lançados como PdfOxideError.

Instalação

O binding faz o link com o cdylib de feature padrão. Compile a biblioteca nativa e, em seguida, aponte o SwiftPM para os headers e a biblioteca:

# 1. build the native library (shipped binding feature set)
cargo build --release --lib --features ocr,rendering,signatures,barcodes,tsa-client,system-fonts

# 2. test + run the example (Package.swift reads PDF_OXIDE_INCLUDE_DIR / _LIB_DIR)
cd swift
export PDF_OXIDE_INCLUDE_DIR="$PWD/../include"
export PDF_OXIDE_LIB_DIR="$PWD/../target/release"
DYLD_LIBRARY_PATH="$PDF_OXIDE_LIB_DIR" swift test
DYLD_LIBRARY_PATH="$PDF_OXIDE_LIB_DIR" swift run basic_extraction

Guia Rápido

Crie um PDF a partir de Markdown, abra-o a partir dos bytes gerados e extraia o seu texto. Todo o ciclo completo é executado sem nenhum arquivo externo:

import PdfOxide

let pdf = try Pdf.fromMarkdown("# Hello pdf_oxide\n\nThis is a **Swift** binding.\n")
let doc = try Document.openFromBytes(try pdf.toBytes())

print("pages:   \(try doc.pageCount())")
print("version: \(try doc.version())")
print(try doc.extractText(0))

Para abrir um arquivo do disco, use Document.open(_:):

import PdfOxide

let doc = try Document.open("research-paper.pdf")
print("Pages:   \(try doc.pageCount())")
print("Version: \(try doc.version())")        // e.g. 1.7

Extração de texto

extractText(_:) retorna o texto de uma única página (índice começando em zero). Percorra pageCount() para ler o documento inteiro:

import PdfOxide

let doc = try Document.open("book.pdf")
for i in 0..<(try doc.pageCount()) {
    print("--- Page \(i + 1) ---")
    print(try doc.extractText(i))
}

toPlainText(_:) fornece uma variante achatada, sem layout, e os métodos *All() extraem todas as páginas de uma só vez:

let doc = try Document.open("report.pdf")
let plain = try doc.toPlainText(0)            // single page, no layout
let everything = try doc.toPlainTextAll()     // all pages concatenated

Palavras e caracteres

extractWords(_:) retorna [Word] com uma bounding box e metadados de fonte para cada palavra. extractChars(_:) retorna [Char] com posicionamento por caractere:

import PdfOxide

let doc = try Document.open("paper.pdf")

let words = try doc.extractWords(0)
for word in words.prefix(10) {
    print("'\(word.text)' at (\(word.bbox.x), \(word.bbox.y)) "
        + "font=\(word.fontName) size=\(word.fontSize) bold=\(word.bold)")
}

let chars = try doc.extractChars(0)
for ch in chars.prefix(10) {
    let scalar = Unicode.Scalar(ch.character).map(String.init) ?? "?"
    print("'\(scalar)' size=\(ch.fontSize) font=\(ch.fontName)")
}

Campos de Word: text (String), bbox (Bbox), fontName (String), fontSize (Double), bold (Bool). Campos de Char: character (codepoint UInt32), bbox, fontName, fontSize. Um Bbox expõe x, y, width e height como Double.

Você também pode obter o texto linha a linha com extractTextLines(_:), que retorna [TextLine] (text, bbox, wordCount):

let lines = try doc.extractTextLines(0)
for line in lines {
    print("\(line.wordCount) words: \(line.text)")
}

Conversão para Markdown e HTML

Converta uma única página ou o documento inteiro para Markdown ou HTML:

import PdfOxide

let doc = try Document.open("paper.pdf")

let md = try doc.toMarkdown(0)        // one page to Markdown
let mdAll = try doc.toMarkdownAll()   // whole document to Markdown
let html = try doc.toHtml(0)          // one page to HTML
let htmlAll = try doc.toHtmlAll()     // whole document to HTML

print(mdAll)

Busca

search(_:_:_:) busca em uma única página; searchAll(_:_:) busca no documento inteiro. Ambos recebem um termo de busca e uma flag caseSensitive, retornando [SearchResult] (text, page, bbox):

import PdfOxide

let doc = try Document.open("manual.pdf")

// Search a single page (page 0, case-insensitive)
let hits = try doc.search(0, "configuration", false)
for hit in hits {
    print("page \(hit.page): '\(hit.text)' at (\(hit.bbox.x), \(hit.bbox.y))")
}

// Search the whole document
let allHits = try doc.searchAll("configuration", false)
print("\(allHits.count) total matches")

Criação de PDF

O tipo Pdf oferece métodos de fábrica que constroem um documento a partir de um formato de origem. Salve-o no disco com save(_:) ou obtenha os bytes brutos com toBytes():

import PdfOxide

try Pdf.fromMarkdown("# Hello World\n\nThis is a PDF.").save("output.pdf")
try Pdf.fromHtml("<h1>Invoice</h1><p>Amount: $42</p>").save("invoice.pdf")
try Pdf.fromText("Plain text content.").save("notes.pdf")

let bytes = try Pdf.fromMarkdown("# In-memory\n\nbody\n").toBytes()
print("produced \(bytes.count) bytes")

Tratamento de erros

Toda chamada que pode falhar lança PdfOxideError, que carrega o nome da operação que falhou e o código de erro subjacente da C-ABI:

import PdfOxide

do {
    let doc = try Document.open("document.pdf")
    print(try doc.extractText(0))
} catch let error as PdfOxideError {
    print("PDF error: \(error)")   // e.g. "PdfOxideError: open failed (error code 1)"
}

Próximos passos

Primeiros passos com Rust – usando o PDF Oxide a partir do Rust
Primeiros passos com Python – usando o PDF Oxide a partir do Python
Extração de texto – opções e receitas detalhadas de extração
Criação de PDF – criação avançada com metadados e criptografia
Edição – modificando PDFs existentes, anotações e campos de formulário