What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

Biblioteca PDF para Go — PDF Oxide

PDF Oxide é a biblioteca PDF mais rápida para Go: 0,8 ms em média na extração de texto, 5× mais rápida que o PyMuPDF, 15× mais rápida que o pypdf e 100 % de sucesso em 3 830 PDFs. Um único módulo para extrair, criar e editar PDFs. Leituras seguras entre goroutines via sync.RWMutex. Licença MIT / Apache-2.0.

Instalação

A partir da v0.3.38 existem dois backends. Escolha um:

Opção A — CGo (link estático, padrão)

go get github.com/yfedoseev/pdf_oxide/go
go run github.com/yfedoseev/pdf_oxide/go/cmd/install@latest

Requer Go 1.21+ com CGO_ENABLED=1 (o padrão) e um toolchain C no PATH. Superfície de API completa. O instalador baixa um arquivo estático pdf_oxide-go-ffi-<platform>.tar.gz, verifica o SHA-256 e imprime os valores de CGO_CFLAGS / CGO_LDFLAGS que você deve exportar. O núcleo Rust é linkado estaticamente, então o binário final é autocontido — não é preciso configurar LD_LIBRARY_PATH / DYLD_LIBRARY_PATH / PATH em tempo de execução. Basta rodar go build e publicar.

Opção B — purego (sem toolchain C, `CGO_ENABLED=0`)

go get github.com/yfedoseev/pdf_oxide/go
go run github.com/yfedoseev/pdf_oxide/go/cmd/install@latest -shared

Adicionado na v0.3.38 via ebitengine/purego. O instalador baixa um cdylib pdf_oxide-go-ffi-shared-<platform>.tar.gz (libpdf_oxide.so / .dylib / .dll) e imprime as variáveis de ambiente a exportar:

export CGO_ENABLED=0
export PDF_OXIDE_LIB_PATH="$HOME/.cache/pdf_oxide/v0.3.38/lib/linux_amd64/libpdf_oxide.so"

A escolha do backend é automática via build tag cgo embutido do Go: //go:build cgo → API CGo, //go:build !cgo → purego.

Superfície purego (o que compila sob !cgo): abertura de PdfDocument (path / bytes / senha), contagem de páginas, versão, extração de texto / Markdown / HTML / texto puro, API de Page, fontes, anotações, elementos de página, busca, dimensões de página, logging, além de PdfCreator.FromMarkdown / .FromHtml / .FromText para fixtures de teste.

Somente CGo (erro de compilação sob !cgo): DocumentEditor, DocumentBuilder + FluentPageBuilder + EmbeddedFont, renderização (RenderPage, RenderPageZoom, RenderThumbnail, RenderPageRegion, RenderPageFit), códigos de barras (GenerateQRCode, GenerateBarcode), assinaturas (Signatures, Signature.Verify), TSA (TsaClient), OCR (OcrEngine) e SetFormFieldValue / FlattenForms.

Flags do instalador

Flag	Padrão	Função
`-version`	versão embutida no módulo	Fixar em um release específico
`-dir`	`os.UserCacheDir()/pdf_oxide/v<ver>`	Sobrescrever o diretório de instalação
`-shared`	off	Baixar o cdylib (backend purego) em vez do staticlib
`-write-flags`	vazio (só imprime env)	Diretório onde gerar um `cgo_flags.go`
`-env-only`	off	Pular o download; só imprimir as envs de uma instalação existente
`-skip-checksum`	off	Pular a verificação SHA-256 (não recomendado)

Diretórios de cache (v0.3.38+)

A raiz de instalação migrou para os.UserCacheDir() para se alinhar à convenção GOCACHE do próprio Go:

SO	Caminho
Linux	`$XDG_CACHE_HOME/pdf_oxide` ou `~/.cache/pdf_oxide`
macOS	`~/Library/Caches/pdf_oxide`
Windows	`%LocalAppData%\pdf_oxide`

Atualizando da v0.3.30 – v0.3.37: o primeiro go build vai falhar no link (undefined reference to pdf_document_open ...) até você rodar o instalador uma vez no novo caminho. O diretório antigo ~/.pdf_oxide/ não é migrado automaticamente; remova-o manualmente se quiser liberar espaço.

Builds em monorepo ou a partir da árvore de fontes: adicione -tags pdf_oxide_dev para apontar o CGo a um target/release/libpdf_oxide.a local — sem precisar do instalador.

Plataformas com binários pré-compilados: Linux x64/arm64, macOS x64/arm64 (Apple Silicon) e Windows x64 (via x86_64-pc-windows-gnu).

Abrindo um PDF

package main

import (
    "fmt"
    "log"

    pdfoxide "github.com/yfedoseev/pdf_oxide/go"
)

func main() {
    doc, err := pdfoxide.Open("research-paper.pdf")
    if err != nil {
        log.Fatal(err)
    }
    defer doc.Close()

    count, _ := doc.PageCount()
    major, minor, _ := doc.Version()
    fmt.Printf("%d páginas, PDF %d.%d\n", count, major, minor)
}

API de páginas

Desde a v0.3.34 você pode trabalhar por página. doc.Page(i) devolve um handle leve *Page que delega para o documento pai.

page, _ := doc.Page(0)
text, _ := page.Text()
md, _   := page.Markdown()

pages, _ := doc.Pages()
for _, p := range pages {
    t, _ := p.Text()
    fmt.Printf("--- Página %d ---\n%s\n", p.Index+1, t)
}

Cada Page expõe Text(), Markdown(), Html(), PlainText(), Chars(), Words(), Lines(), Tables(), Images(), Paths(), Fonts(), Annotations(), Info(), Search(), NeedsOcr() e TextWithOcr().

Extração de texto

Página única

text, err := doc.ExtractText(0)
if err != nil {
    log.Fatal(err)
}
fmt.Println(text)

Todas as páginas

allText, err := doc.ExtractAllText()
if err != nil {
    log.Fatal(err)
}
fmt.Println(allText)

Percorrer páginas manualmente

pages, _ := doc.Pages()
for _, p := range pages {
    text, err := p.Text()
    if err != nil {
        log.Printf("página %d: %v", p.Index, err)
        continue
    }
    fmt.Printf("--- Página %d ---\n%s\n", p.Index+1, text)
}

Extração estruturada

words, _  := doc.ExtractWords(0)        // []Word
lines, _  := doc.ExtractTextLines(0)    // []TextLine
chars, _  := doc.ExtractChars(0)        // []Char
tables, _ := doc.ExtractTables(0)       // []Table — linhas + células com bboxes (v0.3.34)
paths, _  := doc.ExtractPaths(0)        // []Path

for _, w := range words {
    fmt.Printf("%q em (%.1f, %.1f)\n", w.Text, w.X, w.Y)
}

for _, t := range tables {
    fmt.Printf("%dx%d (cabeçalho=%v)\n", t.RowCount, t.ColCount, t.HasHeader)
    for r := 0; r < t.RowCount; r++ {
        for c := 0; c < t.ColCount; c++ {
            fmt.Printf("%s\t", t.CellText(r, c))
        }
        fmt.Println()
    }
}

Extração por região:

region, _ := doc.ExtractTextInRect(0, 50, 700, 200, 50) // x, y, largura, altura
words, _  := doc.ExtractWordsInRect(0, 50, 700, 200, 50)

Conversão para Markdown

md, err := doc.ToMarkdown(0)
if err != nil {
    log.Fatal(err)
}
fmt.Println(md)

// Todas as páginas
allMd, _ := doc.ToMarkdownAll()

Conversão para HTML

html, _  := doc.ToHtml(0)
allHtml, _ := doc.ToHtmlAll()

Extração de imagens

import "os"

images, err := doc.Images(0)
if err != nil {
    log.Fatal(err)
}

for i, img := range images {
    fmt.Printf("Imagem %d: %dx%d %s %s %dbpc (%d bytes)\n",
        i, img.Width, img.Height, img.Format, img.Colorspace, img.BitsPerComponent, len(img.Data))
    os.WriteFile(fmt.Sprintf("image_%d.%s", i, img.Format), img.Data, 0644)
}

Abrir a partir de bytes e readers

// A partir de bytes
data, _ := os.ReadFile("document.pdf")
doc, err := pdfoxide.OpenFromBytes(data)

// De qualquer io.Reader
doc, err := pdfoxide.OpenReader(someReader)

// Com senha
doc, err := pdfoxide.OpenWithPassword("secure.pdf", "user-password")

Criação de PDFs

// A partir de Markdown (funciona sob purego)
pdf, _ := pdfoxide.FromMarkdown("# Olá\n\nCorpo do texto.")
defer pdf.Close()
pdf.Save("out.pdf")

// A partir de HTML (funciona sob purego)
htmlPdf, _ := pdfoxide.FromHtml("<h1>Fatura</h1><p>Valor: $42</p>")
defer htmlPdf.Close()
htmlPdf.Save("invoice.pdf")

// A partir de texto (funciona sob purego)
txt, _ := pdfoxide.FromText("Documento em texto puro.")
defer txt.Close()

// Somente CGo a partir daqui:

// A partir de uma imagem
img, _ := pdfoxide.FromImage("photo.jpg")
defer img.Close()

// Mesclar vários PDFs
merged, _ := pdfoxide.Merge([]string{"a.pdf", "b.pdf"})
os.WriteFile("merged.pdf", merged, 0644)

DocumentBuilder (somente CGo, v0.3.38)

A API fluente do DocumentBuilder chega ao Go na v0.3.38. Anotações, widgets AcroForm (TextField, Checkbox, ComboBox, RadioGroup, PushButton), primitivas gráficas (Rect, FilledRect, Line), fontes embutidas (CJK / cirílico / grego) e criptografia AES-256 — tudo isso entra aqui:

font, _ := pdfoxide.EmbeddedFontFromFile("DejaVuSans.ttf")
defer font.Close()

builder := pdfoxide.NewDocumentBuilder()
builder.RegisterEmbeddedFont("DejaVu", font)
builder.A4Page().
    Font("DejaVu", 12).At(72, 720).Text("Privet, mir!").
    Highlight(1.0, 1.0, 0.0).
    TextField("name", 150, 680, 200, 20, "Jane Doe").
    Checkbox("subscribe", 72, 650, 15, 15, true).
    Done()
_ = builder.SaveEncrypted("out.pdf", "user-pw", "owner-pw")

Consulte API fluente do DocumentBuilder para ver toda a superfície de métodos (mesma forma em todos os bindings).

Renderização

Todas as APIs de renderização são somente CGo (erro de compilação sob CGO_ENABLED=0).

// Formato: 0 = PNG, 1 = JPEG
img, err := doc.RenderPage(0, 0)
if err != nil {
    log.Fatal(err)
}
defer img.Close()
img.SaveToFile("page.png")

// Zoom (2×)
zoomed, _ := doc.RenderPageZoom(0, 2.0, 0)
defer zoomed.Close()

// Miniatura (200px de largura)
thumb, _ := doc.RenderThumbnail(0, 200, 0)
defer thumb.Close()

// Região recortada (v0.3.38)
region, _ := doc.RenderPageRegion(0, 72, 200, 468, 300, 0)
defer region.Close()

// Ajuste em uma caixa alvo (v0.3.38)
fitted, _ := doc.RenderPageFit(0, 1024, 768, 0)
defer fitted.Close()

Busca

// Buscar em todas as páginas (sem diferenciar maiúsculas)
hits, _ := doc.SearchAll("configuration", false)
for _, r := range hits {
    fmt.Printf("página %d: %q em (%.0f, %.0f)\n", r.Page, r.Text, r.X, r.Y)
}

// Buscar em uma única página
pageHits, _ := doc.SearchPage(0, "configuration", false)

Edição

DocumentEditor é somente CGo. Use-o para metadados, operações de página, anotações e formulários:

editor, err := pdfoxide.OpenEditor("in.pdf")
if err != nil {
    log.Fatal(err)
}
defer editor.Close()

// Metadados — um campo por vez
_ = editor.SetTitle("Relatório trimestral")
_ = editor.SetAuthor("Equipe Financeira")

// Ou vários campos de uma só vez
_ = editor.ApplyMetadata(pdfoxide.Metadata{
    Title:   "Relatório Q1 2026",
    Author:  "Equipe Financeira",
    Subject: "Resultados",
})

// Operações de página
_ = editor.SetPageRotation(0, 90)
_ = editor.MovePage(2, 0)
_ = editor.DeletePage(5)

// Formulários
_ = editor.SetFormFieldValue("employee.name", "Jane Doe")
_ = editor.FlattenForms()

// Salvar
_ = editor.Save("out.pdf")
_ = editor.SaveEncrypted("secret.pdf", "user", "owner")

Códigos de barras

A geração de códigos de barras é somente CGo.

qr, _ := pdfoxide.GenerateQRCode("https://example.com", 0, 256)
defer qr.Close()
_ = os.WriteFile("qr.png", qr.PNGData(), 0644)

bc, _ := pdfoxide.GenerateBarcode("123456789", 0, 128)
defer bc.Close()

OCR

Compile com a feature ocr para habilitar OCR em páginas digitalizadas:

go build -tags ocr ./...

ocr, _ := pdfoxide.NewOcrEngine()
defer ocr.Close()

if ocr.NeedsOcr(doc, 0) {
    text, _ := ocr.ExtractTextWithOcr(doc, 0)
    fmt.Println(text)
}

Veja o guia de OCR para receitas completas.

Concorrência

As leituras em PdfDocument são seguras entre goroutines — múltiplas goroutines podem compartilhar um mesmo documento para extrair páginas em paralelo.

import "sync"

var wg sync.WaitGroup
count, _ := doc.PageCount()
out := make(chan string, count)

for i := 0; i < count; i++ {
    wg.Add(1)
    go func(page int) {
        defer wg.Done()
        text, err := doc.ExtractText(page)
        if err == nil {
            out <- text
        }
    }(i)
}

go func() { wg.Wait(); close(out) }()

for text := range out {
    _ = text
}

O DocumentEditor serializa as escritas internamente, mas não distribua edições independentes em pipeline entre várias goroutines — concentre as mudanças em uma única goroutine. Veja os padrões no guia de concorrência.

Tratamento de erros

import "errors"

text, err := doc.ExtractText(0)
if err != nil {
    switch {
    case errors.Is(err, pdfoxide.ErrDocumentClosed):
        log.Print("o documento está fechado")
    case errors.Is(err, pdfoxide.ErrInvalidPageIndex):
        log.Print("índice de página inválido")
    case errors.Is(err, pdfoxide.ErrExtractionFailed):
        log.Print("falha na extração")
    default:
        log.Printf("inesperado: %v", err)
    }
}

Erros sentinela disponíveis:

ErrInvalidPath        ErrDocumentNotFound   ErrInvalidFormat
ErrExtractionFailed   ErrParseError         ErrInvalidPageIndex
ErrSearchFailed       ErrInternal           ErrDocumentClosed
ErrEditorClosed       ErrCreatorClosed      ErrIndexOutOfBounds
ErrEmptyContent

Extraia o Code numérico e a Message com errors.As:

var e *pdfoxide.Error
if errors.As(err, &e) {
    fmt.Printf("code=%d message=%s\n", e.Code, e.Message)
}

Próximos passos

Início com Python — usar o PDF Oxide em Python
Referência da API Go — documentação completa da API
Guia de concorrência — padrões com goroutines
Extração de texto — opções detalhadas
Criação de PDF — criação avançada
Pacote no pkg.go.dev — documentação da API gerada