What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

Textsuche

PDF Oxide bietet Volltextsuche in PDF-Dokumenten mit Regex-Unterstützung, Groß-/Kleinschreibung-unabhängigem Abgleich, Ganzwort-Modus und trefferweisen Begrenzungsrahmen. Suchergebnisse enthalten Seitenzahl, gefundenen Text und präzise Koordinaten für jeden Treffer, wodurch Such-und-Hervorheben-Workflows einfach zu implementieren sind.

Verwenden Sie TextSearcher::search() für mehrseitige Abfragen mit benutzerdefinierten Optionen oder die praktischen Pdf-Methoden (search(), search_page(), highlight_matches()) für gängige Anwendungsfälle.

Schnellbeispiel

Python

from pdf_oxide import PdfDocument

doc = PdfDocument("report.pdf")
results = doc.search("conclusion", case_insensitive=True)
for r in results:
    print(f"Page {r['page']}: '{r['text']}' at ({r['x']:.1f}, {r['y']:.1f})")

Node.js

const { PdfDocument } = require("pdf-oxide");

const doc = new PdfDocument("report.pdf");
const results = doc.searchAll("conclusion", { caseSensitive: false });
for (const r of results) {
  console.log(`Page ${r.page}: '${r.text}' at (${r.x.toFixed(1)}, ${r.y.toFixed(1)})`);
}
doc.close();

import pdfoxide "github.com/yfedoseev/pdf_oxide/go"

doc, _ := pdfoxide.Open("report.pdf")
defer doc.Close()
results, _ := doc.SearchAll("conclusion", false)
for _, r := range results {
    fmt.Printf("Page %d: '%s' at (%.1f, %.1f)\n", r.Page, r.Text, r.X, r.Y)
}

using PdfOxide.Core;

using var doc = PdfDocument.Open("report.pdf");
var results = doc.SearchAll("conclusion");
foreach (var r in results)
{
    Console.WriteLine($"Page {r.Page}: '{r.Text}' at ({r.X:F1}, {r.Y:F1})");
}

WASM

const doc = new WasmPdfDocument(bytes);
const results = doc.search("conclusion");
for (const r of results) {
    console.log(`Page ${r.page}: '${r.text}' at (${r.x.toFixed(1)}, ${r.y.toFixed(1)})`);
}

Rust

use pdf_oxide::api::Pdf;

let mut pdf = Pdf::open("report.pdf")?;
let results = pdf.search("conclusion")?;
for r in &results {
    println!("Page {}: '{}' at ({:.1}, {:.1})", r.page, r.text, r.bbox.x, r.bbox.y);
}

Java

import fyi.oxide.pdf.PdfDocument;
import fyi.oxide.pdf.search.SearchMatch;
import java.nio.file.Path;
import java.util.List;

try (PdfDocument doc = PdfDocument.open(Path.of("report.pdf"))) {
    List<SearchMatch> results = doc.search("conclusion", true, false, 0);
    for (SearchMatch m : results) {
        System.out.printf("Page %d: '%s' at (%.1f, %.1f)%n",
            m.pageIndex(), m.text(), m.bbox().x0(), m.bbox().y0());
    }
}

Kotlin

import fyi.oxide.pdf.PdfDocument
import java.nio.file.Path

PdfDocument.open(Path.of("report.pdf")).use { doc ->
    val results = doc.search("conclusion", true, false, 0)
    for (m in results) {
        println("Page ${m.pageIndex()}: '${m.text()}' at (${m.bbox().x0()}, ${m.bbox().y0()})")
    }
}

Scala

import fyi.oxide.pdf.{PdfDocument, searchSeq}
import scala.util.Using

Using.resource(PdfDocument.open("report.pdf")) { doc =>
  val results = doc.searchSeq("conclusion")
  for (m <- results)
    println(f"Page ${m.pageIndex}: '${m.text}' at (${m.bbox.x0}%.1f, ${m.bbox.y0}%.1f)")
}

Clojure

(require '[pdf-oxide.core :as pdf])

(with-open [doc (pdf/open "report.pdf")]
  (doseq [m (pdf/search doc "conclusion")]
    (printf "Page %d: '%s' at (%.1f, %.1f)%n"
            (.pageIndex m) (.text m) (.x0 (.bbox m)) (.y0 (.bbox m)))))

Ruby

require 'pdf_oxide'

PdfOxide::PdfDocument.open('report.pdf') do |doc|
  doc.search('conclusion', case_sensitive: false).each do |r|
    bbox = r[:bbox]
    printf("Page %d: '%s' at (%.1f, %.1f)\n", r[:page], r[:text], bbox[:x], bbox[:y])
  end
end

C++

#include <pdf_oxide/pdf_oxide.hpp>
#include <cstdio>

auto doc = pdf_oxide::Document::open("report.pdf");
auto results = doc.search_all("conclusion", /*case_sensitive=*/false);
for (const auto& r : results) {
    std::printf("Page %d: '%s' at (%.1f, %.1f)\n",
                r.page, r.text.c_str(), r.bbox.x, r.bbox.y);
}

Swift

import PdfOxide

let doc = try Document.open("report.pdf")
let results = try doc.searchAll("conclusion", false)
for r in results {
    print("Page \(r.page): '\(r.text)' at (\(r.bbox.x), \(r.bbox.y))")
}

Dart

import 'package:pdf_oxide/pdf_oxide.dart';

final doc = PdfDocument.open('report.pdf');
final results = doc.searchAll('conclusion', false);
for (final r in results) {
  print("Page ${r.page}: '${r.text}' at (${r.bbox.x}, ${r.bbox.y})");
}
doc.close();

library(pdfoxide)

doc <- pdf_open("report.pdf")
results <- pdf_search_all(doc, "conclusion", case_sensitive = FALSE)
for (r in results) {
  cat(sprintf("Page %d: '%s' at (%.1f, %.1f)\n",
              r$page, r$text, r$bbox$x, r$bbox$y))
}

Julia

using PdfOxide

doc = open_document("report.pdf")
results = search_all(doc, "conclusion", false)
for r in results
    println("Page $(r.page): '$(r.text)' at ($(r.bbox.x), $(r.bbox.y))")
end

Zig

const pdf_oxide = @import("pdf_oxide");
const a = std.heap.page_allocator;

var doc = try pdf_oxide.Document.open("report.pdf");
const results = try doc.searchAll(a, "conclusion", false);
defer doc.freeSearchResults(a, results);
for (results) |r| {
    std.debug.print("Page {d}: '{s}' at ({d:.1}, {d:.1})\n", .{ r.page, r.text, r.bbox.x, r.bbox.y });
}

Objective-C

#import "POXPdfOxide.h"
NSError *err = nil;

POXDocument *doc = [POXDocument openPath:@"report.pdf" error:&err];
NSArray<POXSearchResult*> *results = [doc searchAll:@"conclusion" caseSensitive:NO error:&err];
for (POXSearchResult *r in results) {
    NSLog(@"Page %ld: '%@' at (%.1f, %.1f)", (long)r.page, r.text, r.bbox.x, r.bbox.y);
}

Elixir

{:ok, doc} = PdfOxide.open("report.pdf")
{:ok, results} = PdfOxide.search_all(doc, "conclusion", false)

for r <- results do
  IO.puts("Page #{r.page}: '#{r.text}' at (#{r.bbox.x}, #{r.bbox.y})")
end

API-Referenz

`TextSearcher::search(doc, pattern, options) -> Vec<SearchResult>`

Sucht Text über mehrere Seiten eines PDF-Dokuments. Das Muster wird als Regex kompiliert, sofern der literal-Modus nicht aktiviert ist.

Parameter	Typ	Beschreibung
`doc`	`&mut PdfDocument`	Das zu durchsuchende PDF-Dokument
`pattern`	`&str`	Regex-Muster (oder Literaltext, wenn `literal` gesetzt ist)
`options`	`&SearchOptions`	Suchkonfiguration

Rückgabe: Ein Vektor von SearchResult-Objekten, geordnet nach Seite und Position.

Rust

use pdf_oxide::PdfDocument;
use pdf_oxide::search::{TextSearcher, SearchOptions};

let mut doc = PdfDocument::open("report.pdf")?;

let options = SearchOptions::new()
    .with_case_insensitive(true)
    .with_max_results(50);

let results = TextSearcher::search(&mut doc, "error|warning", &options)?;
for r in &results {
    println!("Page {}: '{}'", r.page, r.text);
}

`TextSearcher::search_page(doc, page, regex, options) -> Vec<SearchResult>`

Sucht Text auf einer bestimmten Seite mit einer vorkompilierten Regex.

Parameter	Typ	Beschreibung
`doc`	`&mut PdfDocument`	Das PDF-Dokument
`page`	`usize`	Nullbasierter Seitenindex
`regex`	`&Regex`	Vorkompiliertes Regex-Muster
`options`	`&SearchOptions`	Suchkonfiguration

Rückgabe: Ein Vektor von SearchResult-Objekten für die angegebene Seite.

Rust

use pdf_oxide::PdfDocument;
use pdf_oxide::search::{TextSearcher, SearchOptions};
use regex::Regex;

let mut doc = PdfDocument::open("report.pdf")?;
let regex = Regex::new(r"\d{4}-\d{2}-\d{2}")?; // Date pattern
let options = SearchOptions::default();

let results = TextSearcher::search_page(&mut doc, 0, &regex, &options)?;
for r in &results {
    println!("Date found: '{}' at ({:.1}, {:.1})", r.text, r.bbox.x, r.bbox.y);
}

SearchOptions

Konfiguration des Textsuchverhaltens. Verwendet das Builder-Muster für eine ergonomische Konstruktion.

Feld	Typ	Standard	Beschreibung
`case_insensitive`	`bool`	`false`	Groß-/Kleinschreibung beim Abgleich ignorieren
`literal`	`bool`	`false`	Muster als Literaltext behandeln (Regex-Sonderzeichen escapen)
`whole_word`	`bool`	`false`	Nur ganze Wörter abgleichen (Muster mit `\b...\b` umschließen)
`max_results`	`usize`	`0`	Maximale Anzahl zurückzugebender Ergebnisse (0 = unbegrenzt)
`page_range`	`Option<(usize, usize)>`	`None`	Zu durchsuchender Seitenbereich (Start und Ende inklusive)

Builder-Methoden

let options = SearchOptions::new()
    .with_case_insensitive(true)
    .with_literal(true)
    .with_whole_word(true)
    .with_max_results(100)
    .with_page_range(0, 9);

Komfort-Konstruktor

// Quick case-insensitive search
let options = SearchOptions::case_insensitive();

SearchResult

Ein einzelner Suchtreffer mit Positionsinformation.

Feld	Typ	Beschreibung
`page`	`usize`	Seitennummer (0-indiziert)
`text`	`String`	Der gefundene Text
`bbox`	`Rect`	Kombinierter Begrenzungsrahmen des Treffers
`start_index`	`usize`	Startindex im extrahierten Text der Seite
`end_index`	`usize`	Endindex im extrahierten Text der Seite
`span_boxes`	`Vec<Rect>`	Einzelne Begrenzungsrahmen für jeden Abschnitt des Treffers (nützlich für mehrzeilige Treffer)

Python: In der Python-API werden Suchergebnisse als Wörterbücher zurückgegeben:

{
    "page": 0,
    "text": "conclusion",
    "x": 72.0,
    "y": 650.5,
    "width": 85.3,
    "height": 12.0,
}

Praktische Pdf-Methoden

Die übergeordnete Pdf-API bietet Kurzschluss-Methoden für gängige Suchvorgänge.

`search(pattern) -> Vec<SearchResult>`

Durchsucht das gesamte Dokument mit Standardoptionen.

let mut pdf = Pdf::open("report.pdf")?;
let results = pdf.search("important")?;

`search_with_options(pattern, options) -> Vec<SearchResult>`

Suche mit benutzerdefinierten Optionen.

let options = SearchOptions::case_insensitive()
    .with_whole_word(true)
    .with_page_range(0, 5);
let results = pdf.search_with_options("abstract", options)?;

`search_page(page, pattern) -> Vec<SearchResult>`

Durchsucht eine einzelne Seite mit Standardoptionen.

let results = pdf.search_page(0, r"\d+\.\d+")?; // Find decimal numbers

`highlight_matches(results, color) -> Result<()>`

Erstellt Hervorhebungsannotationen für Suchergebnisse. Jedes Ergebnis erhält eine gelbe (oder benutzerdefinierte) Hervorhebungsannotation auf seiner Seite.

Parameter	Typ	Beschreibung
`results`	`&[SearchResult]`	Hervorzuhebende Suchergebnisse
`color`	`[f32; 3]`	RGB-Farbe (0.0–1.0 pro Komponente)

let mut pdf = Pdf::open("report.pdf")?;
let results = pdf.search("important")?;
pdf.highlight_matches(&results, [1.0, 1.0, 0.0])?; // Yellow
pdf.save("highlighted.pdf")?;

Python-Such-API

Die Python-Klasse PdfDocument stellt die Suche direkt bereit.

`doc.search(pattern, ...) -> list[dict]`

doc.search(
    pattern: str,
    case_insensitive: bool = False,
    literal: bool = False,
    whole_word: bool = False,
    max_results: int = 0,
) -> list[dict]

`doc.search_page(page, pattern, ...) -> list[dict]`

doc.search_page(
    page: int,
    pattern: str,
    case_insensitive: bool = False,
    literal: bool = False,
    whole_word: bool = False,
    max_results: int = 0,
) -> list[dict]

JavaScript-Such-API

Die Klasse WasmPdfDocument stellt dieselbe Suchfunktionalität bereit.

`doc.search(pattern, ...) -> Array`

doc.search(pattern, caseInsensitive?, literal?, wholeWord?, maxResults?) -> Array

`doc.searchPage(pageIndex, pattern, ...) -> Array`

doc.searchPage(pageIndex, pattern, caseInsensitive?, literal?, wholeWord?, maxResults?) -> Array

Beispiel:

const doc = new WasmPdfDocument(bytes);

// Search all pages, case-insensitive
const results = doc.search("error|warning", true);
for (const r of results) {
  console.log(`Page ${r.page}: '${r.text}'`);
}

// Search a single page with whole-word matching
const pageResults = doc.searchPage(0, "abstract", true, false, true);
doc.free();

Wie serialisiere ich Suchergebnisse als JSON?

Mehrere Bindings bieten einen Einmal-Serialisierer, der die Ergebnisliste einer Seite in einem einzigen FFI-Übergang in ein JSON-Array umwandelt — Rust serialisiert die gesamte Liste, und das Binding dekodiert sie, anstatt jedes Feld einzeln über die Grenze zu übertragen. Genau so dekodieren die SearchPage-Methoden in Go und C# intern ihre Ergebnisse.

Die C-ABI-Signatur ist maßgebend:

char *pdf_oxide_search_results_to_json(
    const FfiSearchResults *results,
    int32_t *error_code);

Sie nimmt das von pdf_document_search_page(...) zurückgegebene undurchsichtige Ergebnishandle entgegen und gibt eine per malloc allozierte UTF-8-JSON-Zeichenkette zurück (freigeben mit pdf_free_string). Jedes Element enthält page, text und den Begrenzungsrahmen (x, y, width, height) des Treffers.

Swift — der Wrapper bündelt Suche und Serialisierung in einem einzigen Aufruf, searchResultsToJson(_:_:caseSensitive:):

import PdfOxide

let doc = try PdfDocument(path: "report.pdf")

// Search page 0 for "conclusion" and get the matches as a JSON string
let json = try doc.searchResultsToJson(0, "conclusion", caseSensitive: false)
print(json)
// [{"page":0,"text":"conclusion","x":72.0,"y":650.5,"width":85.3,"height":12.0}, ...]

Go / C#. Diese Bindings rufen pdf_oxide_search_results_to_json intern auf und liefern bereits dekodierte native Datensätze zurück, sodass Sie den Serialisierer nicht direkt aufrufen müssen. Verwenden Sie doc.SearchPage(...) (Go: doc.SearchPage(page, text, caseSensitive); C#: doc.SearchPage(pageIndex, text, caseSensitive)) und erhalten Sie stark typisierte Ergebnisse. Um JSON in diesen Sprachen zu erhalten, serialisieren Sie die zurückgegebenen Datensätze mit der Standard-JSON-Bibliothek (encoding/json / System.Text.Json).

Python / Rust. Die Python-Methoden doc.search(...) / doc.search_page(...) geben bereits native list[dict]-Datensätze zurück (direkt mit json.dumps serialisierbar), und Rust gibt typisiertes Vec<SearchResult> zurück, das mit serde_json serialisiert werden kann. Keines der beiden benötigt den C-ABI-Serialisierer.

Erweiterte Beispiele

Suchen und Hervorheben mit benutzerdefinierter Farbe

use pdf_oxide::api::Pdf;
use pdf_oxide::search::SearchOptions;

let mut pdf = Pdf::open("contract.pdf")?;

// Find all dollar amounts
let options = SearchOptions::new()
    .with_literal(false); // regex mode
let results = pdf.search_with_options(r"\$[\d,]+\.?\d*", options)?;

println!("Found {} dollar amounts", results.len());
for r in &results {
    println!("  Page {}: {}", r.page + 1, r.text);
}

// Highlight them in green
pdf.highlight_matches(&results, [0.6, 1.0, 0.6])?;
pdf.save("highlighted_amounts.pdf")?;

Suche mit Seitenbereichsbeschränkung

from pdf_oxide import PdfDocument

doc = PdfDocument("book.pdf")

# Search only the first 10 pages
results = doc.search(
    "introduction",
    case_insensitive=True,
    whole_word=True,
    max_results=5,
)

for r in results:
    print(f"Found on page {r['page'] + 1}")

Suchindex über mehrere PDFs aufbauen

use pdf_oxide::PdfDocument;
use pdf_oxide::search::{TextSearcher, SearchOptions};
use std::collections::HashMap;

let files = vec!["paper_a.pdf", "paper_b.pdf", "paper_c.pdf"];
let query = "machine learning";
let options = SearchOptions::case_insensitive();

let mut index: HashMap<String, Vec<(usize, String)>> = HashMap::new();

for file in &files {
    let mut doc = PdfDocument::open(file)?;
    let results = TextSearcher::search(&mut doc, query, &options)?;

    for r in results {
        index.entry(file.to_string())
            .or_default()
            .push((r.page, r.text));
    }
}

for (file, matches) in &index {
    println!("{}: {} matches", file, matches.len());
    for (page, text) in matches {
        println!("  Page {}: '{}'", page + 1, text);
    }
}

Kontext rund um Treffer extrahieren

use pdf_oxide::PdfDocument;
use pdf_oxide::search::{TextSearcher, SearchOptions};

let mut doc = PdfDocument::open("report.pdf")?;
let options = SearchOptions::new().with_case_insensitive(true);
let results = TextSearcher::search(&mut doc, "error", &options)?;

for r in &results {
    // Extract full page text for context
    let page_text = doc.extract_text(r.page)?;

    // Show 50 chars before and after the match
    let start = r.start_index.saturating_sub(50);
    let end = (r.end_index + 50).min(page_text.len());
    let context = &page_text[start..end];

    println!("Page {} match: ...{}...", r.page + 1, context.trim());
}

Häufig gestellte Fragen

Wie erhalte ich Suchergebnisse als JSON? In Swift rufen Sie doc.searchResultsToJson(page, term, caseSensitive:) auf, das die Seitensuche ausführt und ein JSON-Array der Treffer in einem einzigen Aufruf zurückgibt. In Python und Rust gibt die Suche native Datensätze zurück (list[dict] / Vec<SearchResult>), die Sie mit json.dumps / serde_json serialisieren. Go und C# geben typisierte Datensätze zurück, die Sie mit encoding/json / System.Text.Json serialisieren.

Was enthält jeder JSON-Treffer? Den page des Treffers (0-indiziert), den gefundenen text und den kombinierten Begrenzungsrahmen: x, y, width, height (PDF-Punkte, Ursprung unten links).

Verwendet die Suche standardmäßig Regex oder Literaltext? Muster werden als Regex kompiliert, es sei denn, Sie aktivieren den literal-Modus (with_literal(true) / literal=True), der Regex-Sonderzeichen escapet und den Text wortwörtlich abgleicht.

Unterstützt die Suche Groß-/Kleinschreibung-unabhängigen Abgleich und Ganzwort-Suche? Ja — setzen Sie case_insensitive und whole_word in SearchOptions (Rust) oder übergeben Sie sie als Schlüsselwortargumente (Python) / Optionen (andere Bindings).

Textsuche

Schnellbeispiel

API-Referenz

TextSearcher::search(doc, pattern, options) -> Vec<SearchResult>

TextSearcher::search_page(doc, page, regex, options) -> Vec<SearchResult>

SearchOptions

Builder-Methoden

Komfort-Konstruktor

SearchResult

Praktische Pdf-Methoden

search(pattern) -> Vec<SearchResult>

search_with_options(pattern, options) -> Vec<SearchResult>

search_page(page, pattern) -> Vec<SearchResult>

highlight_matches(results, color) -> Result<()>

Python-Such-API

doc.search(pattern, ...) -> list[dict]

doc.search_page(page, pattern, ...) -> list[dict]

JavaScript-Such-API

doc.search(pattern, ...) -> Array

doc.searchPage(pageIndex, pattern, ...) -> Array

Wie serialisiere ich Suchergebnisse als JSON?

Erweiterte Beispiele

Suchen und Hervorheben mit benutzerdefinierter Farbe

Suche mit Seitenbereichsbeschränkung

Suchindex über mehrere PDFs aufbauen

Kontext rund um Treffer extrahieren

Häufig gestellte Fragen

Verwandte Seiten

`TextSearcher::search(doc, pattern, options) -> Vec<SearchResult>`

`TextSearcher::search_page(doc, page, regex, options) -> Vec<SearchResult>`

`search(pattern) -> Vec<SearchResult>`

`search_with_options(pattern, options) -> Vec<SearchResult>`

`search_page(page, pattern) -> Vec<SearchResult>`

`highlight_matches(results, color) -> Result<()>`

`doc.search(pattern, ...) -> list[dict]`

`doc.search_page(page, pattern, ...) -> list[dict]`

`doc.search(pattern, ...) -> Array`

`doc.searchPage(pageIndex, pattern, ...) -> Array`