What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

Busca de Texto

O PDF Oxide oferece busca de texto completo em documentos PDF com suporte a expressões regulares, correspondência sem distinção de maiúsculas, modo de palavra inteira e caixas delimitadoras por correspondência. Os resultados incluem número da página, texto encontrado e coordenadas precisas de cada ocorrência, facilitando a criação de fluxos de trabalho de busca e destaque.

Use TextSearcher::search() para consultas em múltiplas páginas com opções personalizadas, ou os métodos convenientes da Pdf (search(), search_page(), highlight_matches()) para os casos de uso mais comuns.

Exemplo Rápido

Python

from pdf_oxide import PdfDocument

doc = PdfDocument("report.pdf")
results = doc.search("conclusion", case_insensitive=True)
for r in results:
    print(f"Page {r['page']}: '{r['text']}' at ({r['x']:.1f}, {r['y']:.1f})")

Node.js

const { PdfDocument } = require("pdf-oxide");

const doc = new PdfDocument("report.pdf");
const results = doc.searchAll("conclusion", { caseSensitive: false });
for (const r of results) {
  console.log(`Page ${r.page}: '${r.text}' at (${r.x.toFixed(1)}, ${r.y.toFixed(1)})`);
}
doc.close();

import pdfoxide "github.com/yfedoseev/pdf_oxide/go"

doc, _ := pdfoxide.Open("report.pdf")
defer doc.Close()
results, _ := doc.SearchAll("conclusion", false)
for _, r := range results {
    fmt.Printf("Page %d: '%s' at (%.1f, %.1f)\n", r.Page, r.Text, r.X, r.Y)
}

using PdfOxide.Core;

using var doc = PdfDocument.Open("report.pdf");
var results = doc.SearchAll("conclusion");
foreach (var r in results)
{
    Console.WriteLine($"Page {r.Page}: '{r.Text}' at ({r.X:F1}, {r.Y:F1})");
}

WASM

const doc = new WasmPdfDocument(bytes);
const results = doc.search("conclusion");
for (const r of results) {
    console.log(`Page ${r.page}: '${r.text}' at (${r.x.toFixed(1)}, ${r.y.toFixed(1)})`);
}

Rust

use pdf_oxide::api::Pdf;

let mut pdf = Pdf::open("report.pdf")?;
let results = pdf.search("conclusion")?;
for r in &results {
    println!("Page {}: '{}' at ({:.1}, {:.1})", r.page, r.text, r.bbox.x, r.bbox.y);
}

Java

import fyi.oxide.pdf.PdfDocument;
import fyi.oxide.pdf.search.SearchMatch;
import java.nio.file.Path;
import java.util.List;

try (PdfDocument doc = PdfDocument.open(Path.of("report.pdf"))) {
    List<SearchMatch> results = doc.search("conclusion", true, false, 0);
    for (SearchMatch m : results) {
        System.out.printf("Page %d: '%s' at (%.1f, %.1f)%n",
            m.pageIndex(), m.text(), m.bbox().x0(), m.bbox().y0());
    }
}

Kotlin

import fyi.oxide.pdf.PdfDocument
import java.nio.file.Path

PdfDocument.open(Path.of("report.pdf")).use { doc ->
    val results = doc.search("conclusion", true, false, 0)
    for (m in results) {
        println("Page ${m.pageIndex()}: '${m.text()}' at (${m.bbox().x0()}, ${m.bbox().y0()})")
    }
}

Scala

import fyi.oxide.pdf.{PdfDocument, searchSeq}
import scala.util.Using

Using.resource(PdfDocument.open("report.pdf")) { doc =>
  val results = doc.searchSeq("conclusion")
  for (m <- results)
    println(f"Page ${m.pageIndex}: '${m.text}' at (${m.bbox.x0}%.1f, ${m.bbox.y0}%.1f)")
}

Clojure

(require '[pdf-oxide.core :as pdf])

(with-open [doc (pdf/open "report.pdf")]
  (doseq [m (pdf/search doc "conclusion")]
    (printf "Page %d: '%s' at (%.1f, %.1f)%n"
            (.pageIndex m) (.text m) (.x0 (.bbox m)) (.y0 (.bbox m)))))

Ruby

require 'pdf_oxide'

PdfOxide::PdfDocument.open('report.pdf') do |doc|
  doc.search('conclusion', case_sensitive: false).each do |r|
    bbox = r[:bbox]
    printf("Page %d: '%s' at (%.1f, %.1f)\n", r[:page], r[:text], bbox[:x], bbox[:y])
  end
end

C++

#include <pdf_oxide/pdf_oxide.hpp>
#include <cstdio>

auto doc = pdf_oxide::Document::open("report.pdf");
auto results = doc.search_all("conclusion", /*case_sensitive=*/false);
for (const auto& r : results) {
    std::printf("Page %d: '%s' at (%.1f, %.1f)\n",
                r.page, r.text.c_str(), r.bbox.x, r.bbox.y);
}

Swift

import PdfOxide

let doc = try Document.open("report.pdf")
let results = try doc.searchAll("conclusion", false)
for r in results {
    print("Page \(r.page): '\(r.text)' at (\(r.bbox.x), \(r.bbox.y))")
}

Dart

import 'package:pdf_oxide/pdf_oxide.dart';

final doc = PdfDocument.open('report.pdf');
final results = doc.searchAll('conclusion', false);
for (final r in results) {
  print("Page ${r.page}: '${r.text}' at (${r.bbox.x}, ${r.bbox.y})");
}
doc.close();

library(pdfoxide)

doc <- pdf_open("report.pdf")
results <- pdf_search_all(doc, "conclusion", case_sensitive = FALSE)
for (r in results) {
  cat(sprintf("Page %d: '%s' at (%.1f, %.1f)\n",
              r$page, r$text, r$bbox$x, r$bbox$y))
}

Julia

using PdfOxide

doc = open_document("report.pdf")
results = search_all(doc, "conclusion", false)
for r in results
    println("Page $(r.page): '$(r.text)' at ($(r.bbox.x), $(r.bbox.y))")
end

Zig

const pdf_oxide = @import("pdf_oxide");
const a = std.heap.page_allocator;

var doc = try pdf_oxide.Document.open("report.pdf");
const results = try doc.searchAll(a, "conclusion", false);
defer doc.freeSearchResults(a, results);
for (results) |r| {
    std.debug.print("Page {d}: '{s}' at ({d:.1}, {d:.1})\n", .{ r.page, r.text, r.bbox.x, r.bbox.y });
}

Objective-C

#import "POXPdfOxide.h"
NSError *err = nil;

POXDocument *doc = [POXDocument openPath:@"report.pdf" error:&err];
NSArray<POXSearchResult*> *results = [doc searchAll:@"conclusion" caseSensitive:NO error:&err];
for (POXSearchResult *r in results) {
    NSLog(@"Page %ld: '%@' at (%.1f, %.1f)", (long)r.page, r.text, r.bbox.x, r.bbox.y);
}

Elixir

{:ok, doc} = PdfOxide.open("report.pdf")
{:ok, results} = PdfOxide.search_all(doc, "conclusion", false)

for r <- results do
  IO.puts("Page #{r.page}: '#{r.text}' at (#{r.bbox.x}, #{r.bbox.y})")
end

Referência da API

`TextSearcher::search(doc, pattern, options) -> Vec<SearchResult>`

Busca texto em múltiplas páginas de um documento PDF. O padrão é compilado como regex, a menos que o modo literal esteja ativado.

Parâmetro	Tipo	Descrição
`doc`	`&mut PdfDocument`	O documento PDF a ser pesquisado
`pattern`	`&str`	Padrão regex (ou texto literal se `literal` estiver definido)
`options`	`&SearchOptions`	Configuração de busca

Retorna: Um vetor de objetos SearchResult, ordenados por página e posição.

Rust

use pdf_oxide::PdfDocument;
use pdf_oxide::search::{TextSearcher, SearchOptions};

let mut doc = PdfDocument::open("report.pdf")?;

let options = SearchOptions::new()
    .with_case_insensitive(true)
    .with_max_results(50);

let results = TextSearcher::search(&mut doc, "error|warning", &options)?;
for r in &results {
    println!("Page {}: '{}'", r.page, r.text);
}

`TextSearcher::search_page(doc, page, regex, options) -> Vec<SearchResult>`

Busca texto em uma página específica usando uma regex pré-compilada.

Parâmetro	Tipo	Descrição
`doc`	`&mut PdfDocument`	O documento PDF
`page`	`usize`	Índice de página baseado em zero
`regex`	`&Regex`	Padrão regex pré-compilado
`options`	`&SearchOptions`	Configuração de busca

Retorna: Um vetor de objetos SearchResult para a página especificada.

Rust

use pdf_oxide::PdfDocument;
use pdf_oxide::search::{TextSearcher, SearchOptions};
use regex::Regex;

let mut doc = PdfDocument::open("report.pdf")?;
let regex = Regex::new(r"\d{4}-\d{2}-\d{2}")?; // Date pattern
let options = SearchOptions::default();

let results = TextSearcher::search_page(&mut doc, 0, &regex, &options)?;
for r in &results {
    println!("Date found: '{}' at ({:.1}, {:.1})", r.text, r.bbox.x, r.bbox.y);
}

SearchOptions

Configuração do comportamento da busca de texto. Usa o padrão construtor para uma construção ergonômica.

Campo	Tipo	Padrão	Descrição
`case_insensitive`	`bool`	`false`	Ignorar maiúsculas/minúsculas na correspondência
`literal`	`bool`	`false`	Tratar o padrão como texto literal (escapar metacaracteres regex)
`whole_word`	`bool`	`false`	Corresponder apenas palavras inteiras (envolve o padrão com `\b...\b`)
`max_results`	`usize`	`0`	Número máximo de resultados a retornar (0 = ilimitado)
`page_range`	`Option<(usize, usize)>`	`None`	Intervalo de páginas para pesquisar (início e fim inclusivos)

Métodos do Construtor

let options = SearchOptions::new()
    .with_case_insensitive(true)
    .with_literal(true)
    .with_whole_word(true)
    .with_max_results(100)
    .with_page_range(0, 9);

Construtor de Conveniência

// Quick case-insensitive search
let options = SearchOptions::case_insensitive();

SearchResult

Uma única ocorrência de busca com informações de posição.

Campo	Tipo	Descrição
`page`	`usize`	Número da página (índice 0)
`text`	`String`	O texto correspondente
`bbox`	`Rect`	Caixa delimitadora combinada da ocorrência
`start_index`	`usize`	Índice inicial no texto extraído da página
`end_index`	`usize`	Índice final no texto extraído da página
`span_boxes`	`Vec<Rect>`	Caixas delimitadoras individuais de cada segmento da ocorrência (útil para correspondências em múltiplas linhas)

Python: Na API Python, os resultados de busca são retornados como dicionários:

{
    "page": 0,
    "text": "conclusion",
    "x": 72.0,
    "y": 650.5,
    "width": 85.3,
    "height": 12.0,
}

Métodos de Conveniência da Pdf

A API de alto nível Pdf fornece atalhos para operações de busca comuns.

`search(pattern) -> Vec<SearchResult>`

Pesquisa o documento inteiro com as opções padrão.

let mut pdf = Pdf::open("report.pdf")?;
let results = pdf.search("important")?;

`search_with_options(pattern, options) -> Vec<SearchResult>`

Pesquisa com opções personalizadas.

let options = SearchOptions::case_insensitive()
    .with_whole_word(true)
    .with_page_range(0, 5);
let results = pdf.search_with_options("abstract", options)?;

`search_page(page, pattern) -> Vec<SearchResult>`

Pesquisa uma única página com as opções padrão.

let results = pdf.search_page(0, r"\d+\.\d+")?; // Find decimal numbers

`highlight_matches(results, color) -> Result<()>`

Cria anotações de destaque para os resultados de busca. Cada resultado recebe uma anotação de destaque amarela (ou de cor personalizada) na sua página.

Parâmetro	Tipo	Descrição
`results`	`&[SearchResult]`	Resultados de busca a destacar
`color`	`[f32; 3]`	Cor RGB (0.0–1.0 por componente)

let mut pdf = Pdf::open("report.pdf")?;
let results = pdf.search("important")?;
pdf.highlight_matches(&results, [1.0, 1.0, 0.0])?; // Yellow
pdf.save("highlighted.pdf")?;

API de Busca Python

A classe Python PdfDocument expõe a busca diretamente.

`doc.search(pattern, ...) -> list[dict]`

doc.search(
    pattern: str,
    case_insensitive: bool = False,
    literal: bool = False,
    whole_word: bool = False,
    max_results: int = 0,
) -> list[dict]

`doc.search_page(page, pattern, ...) -> list[dict]`

doc.search_page(
    page: int,
    pattern: str,
    case_insensitive: bool = False,
    literal: bool = False,
    whole_word: bool = False,
    max_results: int = 0,
) -> list[dict]

API de Busca JavaScript

A classe WasmPdfDocument expõe a mesma funcionalidade de busca.

`doc.search(pattern, ...) -> Array`

doc.search(pattern, caseInsensitive?, literal?, wholeWord?, maxResults?) -> Array

`doc.searchPage(pageIndex, pattern, ...) -> Array`

doc.searchPage(pageIndex, pattern, caseInsensitive?, literal?, wholeWord?, maxResults?) -> Array

Exemplo:

const doc = new WasmPdfDocument(bytes);

// Search all pages, case-insensitive
const results = doc.search("error|warning", true);
for (const r of results) {
  console.log(`Page ${r.page}: '${r.text}'`);
}

// Search a single page with whole-word matching
const pageResults = doc.searchPage(0, "abstract", true, false, true);
doc.free();

Como serializar resultados de busca para JSON?

Vários bindings expõem um serializador único que converte a lista de resultados de busca de uma página em um array JSON com uma única travessia da fronteira FFI — o Rust serializa a lista inteira e o binding a decodifica, em vez de passar cada campo de cada ocorrência individualmente. É o mesmo caminho que os métodos SearchPage do Go e do C# usam internamente para decodificar seus resultados.

A assinatura C ABI é a referência oficial:

char *pdf_oxide_search_results_to_json(
    const FfiSearchResults *results,
    int32_t *error_code);

Recebe o identificador de resultados opaco retornado por pdf_document_search_page(...) e retorna uma string JSON UTF-8 alocada com malloc (libere com pdf_free_string). Cada elemento traz o page, o text e a caixa delimitadora (x, y, width, height) da ocorrência.

Swift — o wrapper agrupa a busca e a serialização em uma única chamada, searchResultsToJson(_:_:caseSensitive:):

import PdfOxide

let doc = try PdfDocument(path: "report.pdf")

// Search page 0 for "conclusion" and get the matches as a JSON string
let json = try doc.searchResultsToJson(0, "conclusion", caseSensitive: false)
print(json)
// [{"page":0,"text":"conclusion","x":72.0,"y":650.5,"width":85.3,"height":12.0}, ...]

Go / C#. Esses bindings chamam pdf_oxide_search_results_to_json internamente e entregam registros nativos já decodificados, portanto você não invoca o serializador diretamente. Use doc.SearchPage(...) (Go: doc.SearchPage(page, text, caseSensitive); C#: doc.SearchPage(pageIndex, text, caseSensitive)) e obtenha resultados fortemente tipados. Para obter JSON nessas linguagens, serialize os registros retornados com a biblioteca JSON padrão (encoding/json / System.Text.Json).

Python / Rust. Os métodos Python doc.search(...) / doc.search_page(...) já retornam registros nativos list[dict] (serialize diretamente com json.dumps), e o Rust retorna Vec<SearchResult> tipado que você pode serializar com serde_json. Nenhum dos dois precisa do serializador C-ABI.

Exemplos Avançados

Buscar e destacar com cor personalizada

use pdf_oxide::api::Pdf;
use pdf_oxide::search::SearchOptions;

let mut pdf = Pdf::open("contract.pdf")?;

// Find all dollar amounts
let options = SearchOptions::new()
    .with_literal(false); // regex mode
let results = pdf.search_with_options(r"\$[\d,]+\.?\d*", options)?;

println!("Found {} dollar amounts", results.len());
for r in &results {
    println!("  Page {}: {}", r.page + 1, r.text);
}

// Highlight them in green
pdf.highlight_matches(&results, [0.6, 1.0, 0.6])?;
pdf.save("highlighted_amounts.pdf")?;

Busca com restrição de intervalo de páginas

from pdf_oxide import PdfDocument

doc = PdfDocument("book.pdf")

# Search only the first 10 pages
results = doc.search(
    "introduction",
    case_insensitive=True,
    whole_word=True,
    max_results=5,
)

for r in results:
    print(f"Found on page {r['page'] + 1}")

Construir um índice de busca em múltiplos PDFs

use pdf_oxide::PdfDocument;
use pdf_oxide::search::{TextSearcher, SearchOptions};
use std::collections::HashMap;

let files = vec!["paper_a.pdf", "paper_b.pdf", "paper_c.pdf"];
let query = "machine learning";
let options = SearchOptions::case_insensitive();

let mut index: HashMap<String, Vec<(usize, String)>> = HashMap::new();

for file in &files {
    let mut doc = PdfDocument::open(file)?;
    let results = TextSearcher::search(&mut doc, query, &options)?;

    for r in results {
        index.entry(file.to_string())
            .or_default()
            .push((r.page, r.text));
    }
}

for (file, matches) in &index {
    println!("{}: {} matches", file, matches.len());
    for (page, text) in matches {
        println!("  Page {}: '{}'", page + 1, text);
    }
}

Extrair contexto ao redor das ocorrências

use pdf_oxide::PdfDocument;
use pdf_oxide::search::{TextSearcher, SearchOptions};

let mut doc = PdfDocument::open("report.pdf")?;
let options = SearchOptions::new().with_case_insensitive(true);
let results = TextSearcher::search(&mut doc, "error", &options)?;

for r in &results {
    // Extract full page text for context
    let page_text = doc.extract_text(r.page)?;

    // Show 50 chars before and after the match
    let start = r.start_index.saturating_sub(50);
    let end = (r.end_index + 50).min(page_text.len());
    let context = &page_text[start..end];

    println!("Page {} match: ...{}...", r.page + 1, context.trim());
}

Perguntas Frequentes

Como obter os resultados de busca em JSON? No Swift, chame doc.searchResultsToJson(page, term, caseSensitive:), que executa a busca na página e retorna um array JSON de ocorrências em uma única chamada. No Python e no Rust, a busca retorna registros nativos (list[dict] / Vec<SearchResult>) que você serializa com json.dumps / serde_json. Go e C# retornam registros tipados que você serializa com encoding/json / System.Text.Json.

O que cada ocorrência JSON contém? O page da ocorrência (índice 0), o text correspondente e a caixa delimitadora combinada: x, y, width, height (em pontos PDF, origem no canto inferior esquerdo).

A busca usa regex ou texto literal por padrão? Os padrões são compilados como regex, a menos que você ative o modo literal (with_literal(true) / literal=True), que escapa os metacaracteres regex e corresponde ao texto literalmente.

A busca suporta correspondência sem distinção de maiúsculas e de palavra inteira? Sim — defina case_insensitive e whole_word em SearchOptions (Rust) ou como argumentos nomeados (Python) / opções (outros bindings).

Páginas Relacionadas

Extração de Texto – A extração de texto sobre a qual a busca opera
Extração com Escopo – Extração com escopo de região e JSON de região estruturado
Extração de Anotações – Anotações criadas pelo highlight_matches
Conversão para Markdown – Converter o contexto dos resultados de busca para Markdown