What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

PDF Oxide MCP-сервер — извлечение PDF для AI-ассистентов

pdf-oxide-mcp — сервер Model Context Protocol, который позволяет AI-ассистентам доставать содержимое из PDF. Всё работает локально: файлы не покидают вашу машину.

Установите crgx (однократно)

crgx — npx-образный раннер для бинарников на Rust: при первом запуске он сам скачает pdf_oxide_mcp. Вручную ставить MCP не нужно.

Linux / macOS

curl -fsSL crgx.dev/install.sh | sh

Windows (PowerShell)

irm crgx.dev/install.ps1 | iex

Настройка

После установки crgx добавьте приведённый ниже фрагмент в конфигурацию вашего AI-инструмента. Большего не требуется — crgx сам скачает и обновит pdf_oxide_mcp.

Claude Desktop

Добавьте в ~/.config/claude/claude_desktop_config.json (Linux) или ~/Library/Application Support/Claude/claude_desktop_config.json (macOS):

{
  "mcpServers": {
    "pdf-oxide": {
      "command": "crgx",
      "args": ["pdf_oxide_mcp@latest"]
    }
  }
}

Claude Code

Добавьте в .claude/settings.json вашего проекта:

{
  "mcpServers": {
    "pdf-oxide": {
      "command": "crgx",
      "args": ["pdf_oxide_mcp@latest"]
    }
  }
}

Cursor

Добавьте в настройки MCP в Cursor:

{
  "mcpServers": {
    "pdf-oxide": {
      "command": "crgx",
      "args": ["pdf_oxide_mcp@latest"]
    }
  }
}

Другие способы установки

Если не хотите пользоваться crgx, pdf_oxide_mcp можно поставить напрямую:

Homebrew (macOS / Linux)

brew install yfedoseev/tap/pdf-oxide    # включает pdf-oxide-mcp

Cargo

cargo install pdf_oxide_mcp

Затем укажите путь к бинарнику прямо в конфигурации:

{
  "mcpServers": {
    "pdf-oxide": {
      "command": "pdf-oxide-mcp"
    }
  }
}

Доступные инструменты

`extract`

Извлекает текст, Markdown или HTML из PDF-файла.

Параметр	Тип	Обязательный	Описание
`file_path`	string	Да	Путь к PDF-файлу
`output_path`	string	Да	Путь для записи извлечённого содержимого
`format`	string	Нет	`"text"` (по умолчанию), `"markdown"` или `"html"`
`pages`	string	Нет	Диапазон страниц, например `"1-3,7,10-12"`
`password`	string	Нет	Пароль для зашифрованного PDF
`images`	boolean	Нет	Сохранять изображения отдельными файлами рядом с выводом
`embed_images`	boolean	Нет	Встраивать изображения в markdown/html как base64 (по умолчанию: true)

Как это работает

MCP-сервер общается по stdio с помощью JSON-RPC 2.0. Когда AI-ассистенту нужно прочитать PDF, он отправляет запрос tools/call и получает извлечённое содержимое в ответ.

Вся обработка идёт локально на том же Rust-движке, что и в библиотеке и CLI: никакие данные не уходят во внешние сервисы.

Промпты, которые можно давать ассистенту

Когда MCP-сервер подключён, ассистент сам вызывает extract. Примеры рабочих промптов:

«Сохрани Markdown из report.pdf в report.md.»
«Извлеки страницы 4–8 из contract.pdf как HTML с вложенными картинками и сохрани в contract.html.»
«bank-statement.pdf защищён паролем (pw: hunter2) — вытащи только таблицу транзакций в виде текста.»

Под капотом ассистент отправляет примерно такой JSON-RPC-вызов:

{
  "jsonrpc": "2.0",
  "id": 1,
  "method": "tools/call",
  "params": {
    "name": "extract",
    "arguments": {
      "file_path": "/path/report.pdf",
      "output_path": "/path/report.md",
      "format": "markdown",
      "pages": "4-8",
      "images": true,
      "embed_images": true
    }
  }
}

Сервер пишет результат в output_path и возвращает короткое подтверждение — ассистент затем сам прочитает этот файл и заберёт содержимое в контекст.