What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

Початок роботи з PDF Oxide ®

PDF Oxide постачає ідіоматичні прив’язки для R, які забезпечують швидкий видобуток тексту, Markdown і HTML із PDF — середній час видобутку тексту 0,8 мс, 100% успішних проходжень на 3830 PDF — і працюють на тому самому ядрі Rust, що й усі інші прив’язки. Пакет для R обгортає C ABI бібліотеки pdf_oxide через інтерфейс .Call мови R; дескриптори документів — це зовнішні вказівники R, які звільняються збирачем сміття, а індекси сторінок починаються з 0, як і в основному рушії.

Встановлення

Пакет для R лінкується з cdylib, зібраним з набором функцій за замовчуванням. Спершу зберіть нативну бібліотеку, а потім встановіть пакет, указавши йому шлях до заголовка та cdylib:

# 1. build the native library (shipped binding feature set)
cargo build --release --lib \
  --features ocr,rendering,signatures,barcodes,tsa-client,system-fonts

# 2. install the R package
PDF_OXIDE_INCLUDE_DIR="$PWD/include" PDF_OXIDE_LIB_DIR="$PWD/target/release" \
  R CMD INSTALL r/

Під час виконання зробіть cdylib доступним для лінкера:

LD_LIBRARY_PATH="$PWD/target/release" Rscript your_script.R

Відкриття PDF

Відкрийте файл за допомогою pdf_open(), а потім перегляньте його метадані. pdf_version() повертає іменований список із полями major та minor.

library(pdfoxide)

doc <- pdf_open("research-paper.pdf")

pdf_page_count(doc)               # number of pages
v <- pdf_version(doc)
cat("PDF version:", paste(v$major, v$minor, sep = "."), "\n")
pdf_is_encrypted(doc)             # logical

Видобуток тексту

Видобудьте текст у порядку читання для однієї сторінки (з індексом від 0) за допомогою pdf_extract_text().

library(pdfoxide)

doc <- pdf_open("report.pdf")
text <- pdf_extract_text(doc, 0)  # 0-based page index
cat(text)

Пройдіться по всіх сторінках за допомогою pdf_page_count():

doc <- pdf_open("book.pdf")
for (page in seq_len(pdf_page_count(doc)) - 1L) {   # 0-based indices
  cat("--- Page", page + 1L, "---\n")
  cat(pdf_extract_text(doc, page), "\n")
}

Markdown і HTML

Перетворіть окрему сторінку на Markdown чи HTML або конвертуйте весь документ одразу.

library(pdfoxide)

doc <- pdf_open("paper.pdf")

md  <- pdf_to_markdown(doc, 0)    # one page as Markdown
html <- pdf_to_html(doc, 0)       # one page as HTML

all_md   <- pdf_to_markdown_all(doc)    # whole document
all_text <- pdf_to_plain_text_all(doc)  # whole document, plain text

cat(all_md)

Слова, символи та рядки

Видобуток елементів повертає списки записів із позиційними обмежувальними прямокутниками. Кожен bbox — це іменований список із полями x, y, width та height.

library(pdfoxide)

doc <- pdf_open("paper.pdf")

# Positioned words — each has $text, $bbox, $font_name, $font_size, $bold
words <- pdf_extract_words(doc, 0)
for (w in head(words, 10)) {
  cat(sprintf("'%s' at (%.1f, %.1f) font=%s bold=%s\n",
              w$text, w$bbox$x, w$bbox$y, w$font_name, w$bold))
}

# Reading-order lines — each has $text, $bbox, $word_count
lines <- pdf_extract_text_lines(doc, 0)
for (ln in head(lines, 5)) {
  cat(sprintf("[%d words] %s\n", ln$word_count, ln$text))
}

# Positioned characters — $character is the Unicode codepoint (integer)
chars <- pdf_extract_chars(doc, 0)
for (ch in head(chars, 10)) {
  cat(sprintf("'%s' at (%.1f, %.1f) size=%.1f\n",
              intToUtf8(ch$character), ch$bbox$x, ch$bbox$y, ch$font_size))
}

Таблиці

pdf_extract_tables() повертає виявлені таблиці. Кожен запис таблиці містить row_count, col_count, has_header та символьну матрицю cells, індекси якої починаються з 1: tbl$cells[row, col].

library(pdfoxide)

doc <- pdf_open("statement.pdf")
tables <- pdf_extract_tables(doc, 0)

for (tbl in tables) {
  cat(sprintf("Table: %d rows x %d cols (header=%s)\n",
              tbl$row_count, tbl$col_count, tbl$has_header))
  for (r in seq_len(tbl$row_count)) {
    cat(paste(tbl$cells[r, ], collapse = " | "), "\n")
  }
}

Пошук

Шукайте на окремій сторінці за допомогою pdf_search() або по всьому документу за допомогою pdf_search_all(). Обидві функції приймають необов’язковий прапорець case_sensitive (за замовчуванням FALSE) і повертають записи з полями text, page та bbox.

library(pdfoxide)

doc <- pdf_open("manual.pdf")

# Whole document
hits <- pdf_search_all(doc, "configuration")
for (h in hits) {
  cat(sprintf("Page %d: '%s' at (%.0f, %.0f)\n",
              h$page, h$text, h$bbox$x, h$bbox$y))
}

# Single page, case-sensitive
page_hits <- pdf_search(doc, 0, "Configuration", case_sensitive = TRUE)

Відкриття з байтів

Відкрийте PDF, що зберігається в пам’яті — зручно, коли ви читаєте дані з S3, HTTP або бази даних — за допомогою pdf_open_from_bytes(), яка приймає вектор raw.

library(pdfoxide)

bytes <- readBin("report.pdf", "raw", file.info("report.pdf")$size)
doc <- pdf_open_from_bytes(bytes)
cat(pdf_extract_text(doc, 0))

PDF, захищені паролем

Відкрийте зашифрований документ за допомогою pdf_open_with_password() або викличте pdf_authenticate() після відкриття (вона повертає TRUE у разі успіху та FALSE за неправильного пароля).

library(pdfoxide)

doc <- pdf_open_with_password("confidential.pdf", "secret")
cat(pdf_extract_text(doc, 0))

Створення PDF

Функції-будівники створюють pdfoxide_pdf із Markdown, HTML або простого тексту. Збережіть результат у файл за допомогою pdf_save() або серіалізуйте його у вектор raw за допомогою pdf_to_bytes() (який можна знову відкрити за допомогою pdf_open_from_bytes()).

library(pdfoxide)

pdf <- pdf_from_markdown("# Hello World\n\nThis is a PDF.\n")
pdf_save(pdf, "output.pdf")

pdf_from_html("<h1>Invoice</h1><p>Amount due: $42.00</p>") |>
  pdf_save("invoice.pdf")

pdf_from_text("Plain text document.\n\nSecond paragraph.") |>
  pdf_save("notes.pdf")

# Round-trip through bytes
bytes <- pdf_to_bytes(pdf_from_markdown("# In memory\n\nbody\n"))
doc <- pdf_open_from_bytes(bytes)
cat(pdf_extract_text(doc, 0))

Наступні кроки

Початок роботи з Python – використання PDF Oxide з Python
Початок роботи з Rust – базовий крейт Rust
Видобуток тексту – докладні параметри та рецепти видобутку
Створення PDF – розширене створення з будівниками, шифруванням і метаданими