What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

Начало работы с PDF Oxide (PHP)

PDF Oxide — самая быстрая PHP-библиотека для извлечения текста из PDF: в среднем 0,8 мс, 100% успешных тестов на 3830 PDF. Одна библиотека для извлечения, конвертации и создания PDF, построенная на том же ядре Rust, что и привязки для Python, Node, Go, C#, Ruby и Java.

Установка

composer require oxide/pdf-oxide

Хук Composer, срабатывающий после установки, загружает подходящую готовую нативную библиотеку для вашей платформы в vendor/oxide/pdf-oxide/lib/ (linux-x86_64, linux-aarch64, darwin-x86_64, darwin-arm64, windows-x64).

Требования: PHP 8.2+ (8.2, 8.3, 8.4, 8.5) с включённым ext-ffi. Проверьте командой php -m | grep -i ffi. На некоторых управляемых хостингах ext-ffi отключён; в этом случае используйте Docker-образ, например php:8.3-cli.

Открытие PDF

Используйте PdfDocument::open(), чтобы загрузить файл и изучить его метаданные.

use PdfOxide\PdfDocument;

$doc = PdfDocument::open('research-paper.pdf');
echo $doc->pageCount(), " pages\n";

$version = $doc->version();   // ['major' => int, 'minor' => int]
printf("PDF version: %d.%d\n", $version['major'], $version['minor']);

$doc->close();   // или положитесь на __destruct()

Извлечение текста

Одна страница

Извлеките обычный текст с любой страницы по её индексу, отсчитываемому с нуля.

use PdfOxide\PdfDocument;

$doc = PdfDocument::open('report.pdf');
echo $doc->extractText(0);
$doc->close();

Все страницы

use PdfOxide\PdfDocument;

$doc = PdfDocument::open('book.pdf');
for ($i = 0; $i < $doc->pageCount(); $i++) {
    echo "--- Page " . ($i + 1) . " ---\n";
    echo $doc->extractText($i), "\n";
}
$doc->close();

Извлечение за один вызов

extractTextOnce() — это статический помощник, который открывает файл, извлекает текст со страницы 0 и закрывает документ за один вызов.

use PdfOxide\PdfDocument;

echo PdfDocument::extractTextOnce('report.pdf');

Извлечение с автоматическим выбором стратегии

extractTextAuto() возвращает нативный текст, если он есть, и аккуратно откатывается к любому тексту, который удаётся восстановить, — на этом резервном пути он никогда не выбрасывает исключение.

use PdfOxide\PdfDocument;

$doc = PdfDocument::open('mixed.pdf');
echo $doc->extractTextAuto(0);
$doc->close();

Page API

pages() возвращает массив представлений PdfPage, а pagesIter() лениво выдаёт их вместе с индексом. Каждая страница делегирует извлечение обратно документу.

use PdfOxide\PdfDocument;

$doc = PdfDocument::open('paper.pdf');

foreach ($doc->pagesIter() as $index => $page) {
    echo "Page {$index}:\n";
    echo $page->text(), "\n";
}

// Или возьмите одну страницу напрямую:
$page = $doc->page(0);
echo $page->toMarkdown();

$doc->close();

Методы PdfPage: index(), parent(), text(), textAuto(), toMarkdown(), toHtml().

Конвертация в Markdown и HTML

Преобразуйте отдельную страницу или весь документ в Markdown либо отрендерите страницу в HTML.

use PdfOxide\PdfDocument;

$doc = PdfDocument::open('paper.pdf');

echo $doc->toMarkdown(0);     // одна страница (по умолчанию страница 0)
echo $doc->toMarkdownAll();   // весь документ
echo $doc->toHtml(0);         // одна страница в виде HTML

$doc->close();

Статический MarkdownConverter предоставляет те же преобразования, не требуя хранить индекс страницы на стороне вызова документа.

use PdfOxide\PdfDocument;
use PdfOxide\MarkdownConverter;

$doc = PdfDocument::open('paper.pdf');

echo MarkdownConverter::toMarkdown($doc, 0);
echo MarkdownConverter::toMarkdownAll($doc);
echo MarkdownConverter::toHtml($doc, 0);
echo MarkdownConverter::toPlainText($doc, 0);

$doc->close();

Структурированное извлечение

extractStructured() возвращает представление страницы с учётом её разметки в виде ассоциативного массива — области с их типом, текстом, ограничивающим прямоугольником и индексом колонки.

use PdfOxide\PdfDocument;

$doc = PdfDocument::open('paper.pdf');
$structured = $doc->extractStructured(0);

printf("Page %d: %.0f x %.0f\n",
    $structured['page_index'],
    $structured['page_width'],
    $structured['page_height']);

foreach ($structured['regions'] as $region) {
    echo "[{$region['kind']}] {$region['text']}\n";
}

$doc->close();

Открытие из байтов

Откройте PDF из строки в памяти — удобно, когда вы получаете данные из S3, по HTTP или из базы данных.

use PdfOxide\PdfDocument;

$bytes = file_get_contents('report.pdf');
$doc = PdfDocument::openBytes($bytes);
echo $doc->extractText(0);
$doc->close();

Проверка возможностей документа

Изучите документ перед его обработкой.

use PdfOxide\PdfDocument;

$doc = PdfDocument::open('form.pdf');

var_dump($doc->hasStructureTree());   // тегированный PDF?
var_dump($doc->hasFormFields());      // поля AcroForm?
var_dump($doc->hasSignatures());      // цифровые подписи?

$doc->close();

Создание PDF

Класс Pdf предоставляет фабричные методы для построения PDF из Markdown, HTML или обычного текста.

use PdfOxide\Pdf;

$pdf = Pdf::fromMarkdown("# Invoice\n\n**Total:** \$42.00\n");
$pdf->saveTo('invoice.pdf');           // записать по пути
$pdf->close();

$pdf = Pdf::fromHtml('<h1>Report</h1><p>Quarterly figures.</p>');
$bytes = $pdf->save();                 // или получить сырые байты
file_put_contents('report.pdf', $bytes);
$pdf->close();

$pdf = Pdf::fromText("Plain text document.\n\nSecond paragraph.");
$pdf->saveTo('notes.pdf');
$pdf->close();

Дальнейшие шаги

Начало работы с Python – использование PDF Oxide из Python
Начало работы с Rust – использование PDF Oxide из Rust
Извлечение текста – подробные параметры и рецепты извлечения
Создание PDF – продвинутое создание с метаданными и стилизацией
Редактирование – изменение существующих PDF, аннотации и поля форм