What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

Referência da API Page

Desde a v0.3.34, cada binding expõe um objeto Page para você iterar o documento e chamar os métodos de extração direto na página, em vez de passar page_index em toda chamada. O tipo se chama Page de forma consistente em Python, Node.js, C# e Go; o Rust expõe a mesma forma através de PdfPage.

Exemplo rápido

Python

from pdf_oxide import PdfDocument

with PdfDocument("paper.pdf") as doc:
    for page in doc:                       # len(doc), doc[i], doc[-1] também funcionam
        print(page.text[:80])
        md = page.markdown(detect_headings=True)

Rust

use pdf_oxide::api::Pdf;

let mut doc = Pdf::open("paper.pdf")?;
for i in 0..doc.page_count()? {
    let page = doc.page(i)?;
    println!("{}", &page.text()?[..80]);
}

JavaScript / TypeScript (Node)

const { PdfDocument } = require("pdf-oxide");

const doc = new PdfDocument("paper.pdf");
for (const page of doc) {
  console.log(page.extractText().slice(0, 80));
}
doc.close();

package main

import (
    "fmt"
    "log"
    pdfoxide "github.com/yfedoseev/pdf_oxide/go"
)

func main() {
    doc, err := pdfoxide.Open("paper.pdf")
    if err != nil { log.Fatal(err) }
    defer doc.Close()

    pages, _ := doc.Pages()
    for _, page := range pages {
        text, _ := page.ExtractText()
        fmt.Println(text[:80])
    }
}

using PdfOxide;

using var doc = PdfDocument.Open("paper.pdf");
foreach (var page in doc.Pages)
{
    Console.WriteLine(page.ExtractText()[..Math.Min(80, page.ExtractText().Length)]);
}

Python — `Page`

Superfície de propriedades preguiçosas — o conteúdo é parseado no primeiro acesso e fica em cache dentro de Page.

Membro	Retorno	Descrição
`page.text`	`str`	Texto extraído (ciente de colunas)
`page.chars`	`list[Char]`	Registros de caractere com bbox e fonte
`page.words`	`list[Word]`	Registros de palavra com bbox
`page.lines`	`list[TextLine]`	Linhas de texto com bbox
`page.spans`	`list[Span]`	Spans com estilo (fonte, tamanho, peso)
`page.tables`	`list[Table]`	Linhas de tabela estruturadas e bbox por célula
`page.images`	`list[Image]`	Metadados de imagem
`page.paths`	`list[Path]`	Registros de traçado vetorial
`page.annotations`	`list[Annotation]`	Anotações nesta página
`page.markdown(detect_headings=True)`	`str`	Conversão para Markdown
`page.plain_text()`	`str`	Texto puro (sem dicas de layout)
`page.html()`	`str`	Conversão para HTML
`page.render(format="png")`	`bytes`	Renderiza a página como PNG / JPEG
`page.search(term, case_sensitive=False)`	`list[SearchResult]`	Busca texto nesta página
`page.region(rect)`	`PageRegion`	Extração restrita a um retângulo

with PdfDocument("paper.pdf") as doc:
    page = doc[0]                 # ou doc.page(0)
    for word in page.words:       # primeiro acesso parseia; chamadas seguintes usam o cache
        print(word.text, word.bbox)

    # Extração restrita
    header = page.region((0, 700, 612, 92)).extract_text()

A classe editor PdfPage já existente (para escrita) continua igual; a nova Page é estritamente de leitura.

Rust — `PdfPage`

use pdf_oxide::api::Pdf;

let mut doc = Pdf::open("paper.pdf")?;
let page = doc.page(0)?;

let text = page.text()?;
let words = page.extract_words()?;
let tables = page.extract_tables()?;
let md = page.to_markdown(true)?;

Métodos disponíveis em PdfPage:

text(), plain_text(), to_markdown(detect_headings), to_html()
extract_chars(), extract_words(), extract_lines(), extract_spans()
extract_tables(), extract_paths(), extract_images()
annotations(), render(format)
search(term) — busca restrita
find_text_containing(substring) — lista de ocorrências em nível de DOM com IDs

Node.js — `Page`

const { PdfDocument } = require("pdf-oxide");

const doc = new PdfDocument("paper.pdf");
const page = doc.page(0);

console.log(page.width, page.height, page.rotation);  // em cache
console.log(page.extractText());
const words = page.extractWords();
const tables = page.extractTables();
const md = page.toMarkdown();

PdfDocument suporta for..of via Symbol.iterator, além de doc.page(i) e doc.pageCount().

Seis métodos antes disponíveis só na camada nativa agora estão em Page e PdfDocument via a camada TS:

extractWords
extractTextLines
extractTables
extractPaths
getEmbeddedImages
ocrExtractText

Cada método tem sua versão async — extractTextAsync, toMarkdownAsync, etc.

Go — `Page`

doc, _ := pdfoxide.Open("paper.pdf")
defer doc.Close()

page, _ := doc.Page(0)
text, _ := page.ExtractText()
md, _   := page.ToMarkdown()
tables, _ := page.ExtractTables()

// Itera todas as páginas
all, _ := doc.Pages()
for i, p := range all {
    t, _ := p.ExtractText()
    fmt.Printf("página %d: %d caracteres\n", i, len(t))
}

O struct Page em Go traz a superfície completa: ExtractText, ToMarkdown, ToHtml, ToPlainText, ExtractWords, ExtractTextLines, ExtractTables, ExtractChars, ExtractPaths, Annotations, Images, Fonts, RenderPage, Search.

C# — `Page`

using PdfOxide;

using var doc = PdfDocument.Open("paper.pdf");

Page page = doc[0];                            // ou doc.Pages[0] ou doc.Page(0)
string text = page.ExtractText();
string md   = page.ToMarkdown();
Table[] tables = page.ExtractTables();

// Variantes async
string textAsync = await page.ExtractTextAsync();
string mdAsync   = await page.ToMarkdownAsync();

doc.Pages é IReadOnlyList<Page>. Cada método síncrono tem um equivalente async Task<T> com suporte a CancellationToken.

Formato do tipo Table

extract_tables() (disponível tanto em PdfDocument quanto em Page) devolve um tipo Table consistente entre linguagens:

Linguagem	Tipo	Acesso a célula
Rust	`Table`	iterar `rows[i].cells[j]`
Python	`dict`	`row["cells"][i]["text"]`
Go	`Table`	`table.CellText(row, col)`
C#	`Table`	`table.CellText(row, col)`
Node.js	interface `Table`	`table.cells[row][col]`

Cada célula carrega texto mais uma bounding box, então dá para correlacionar a extração com as coordenadas na página.

Migração a partir de `doc.extract_*(page_index)`

Antigo (ainda suportado):

doc = PdfDocument("paper.pdf")
for i in range(doc.page_count()):
    print(doc.extract_text(i))
    print(doc.to_markdown(i, detect_headings=True))
    print(doc.extract_tables(i))

Novo (v0.3.34+):

with PdfDocument("paper.pdf") as doc:
    for page in doc:
        print(page.text)
        print(page.markdown(detect_headings=True))
        print(page.tables)

Os dois estilos continuam suportados; o estilo Page fica mais legível em pipelines página a página e dispensa o controle manual de índice.

Páginas relacionadas

Referência da API Python
Referência da API Rust
Referência da API Node.js
Referência da API Go
Referência da API C#
Extração de texto — métodos de extração subjacentes
Changelog — introdução da Page API na v0.3.34

Referência da API Page

Exemplo rápido

Python — Page

Rust — PdfPage

Node.js — Page

Go — Page

C# — Page