What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

PDF Oxide MCP-сервер — видобування PDF для AI-асистентів

pdf-oxide-mcp — сервер Model Context Protocol, що дозволяє AI-асистентам діставати вміст із PDF. Усе працює локально — файли не залишають ваш комп’ютер.

Установіть crgx (одноразово)

crgx — npx-подібний запускач для бінарників на Rust: під час першого запуску він сам завантажить pdf_oxide_mcp. MCP уручну встановлювати не треба.

Linux / macOS

curl -fsSL crgx.dev/install.sh | sh

Windows (PowerShell)

irm crgx.dev/install.ps1 | iex

Налаштування

Після встановлення crgx додайте наведений нижче фрагмент у конфігурацію вашого AI-інструмента. Більше нічого не потрібно — crgx сам подбає про завантаження та оновлення pdf_oxide_mcp.

Claude Desktop

Додайте до ~/.config/claude/claude_desktop_config.json (Linux) або ~/Library/Application Support/Claude/claude_desktop_config.json (macOS):

{
  "mcpServers": {
    "pdf-oxide": {
      "command": "crgx",
      "args": ["pdf_oxide_mcp@latest"]
    }
  }
}

Claude Code

Додайте до .claude/settings.json вашого проєкту:

{
  "mcpServers": {
    "pdf-oxide": {
      "command": "crgx",
      "args": ["pdf_oxide_mcp@latest"]
    }
  }
}

Cursor

Додайте до налаштувань MCP у Cursor:

{
  "mcpServers": {
    "pdf-oxide": {
      "command": "crgx",
      "args": ["pdf_oxide_mcp@latest"]
    }
  }
}

Інші способи встановити

Якщо не хочете користуватися crgx, pdf_oxide_mcp можна встановити напряму:

Homebrew (macOS / Linux)

brew install yfedoseev/tap/pdf-oxide    # містить pdf-oxide-mcp

Cargo

cargo install pdf_oxide_mcp

Потім вкажіть у конфігурації шлях до бінарника:

{
  "mcpServers": {
    "pdf-oxide": {
      "command": "pdf-oxide-mcp"
    }
  }
}

Доступні інструменти

`extract`

Видобуває текст, Markdown або HTML із PDF-файлу.

Параметр	Тип	Обов’язковий	Опис
`file_path`	string	Так	Шлях до PDF-файлу
`output_path`	string	Так	Шлях для запису видобутого вмісту
`format`	string	Ні	`"text"` (за замовчуванням), `"markdown"` чи `"html"`
`pages`	string	Ні	Діапазон сторінок, напр. `"1-3,7,10-12"`
`password`	string	Ні	Пароль для зашифрованих PDF
`images`	boolean	Ні	Зберігає зображення окремими файлами поруч із виводом
`embed_images`	boolean	Ні	Вбудовує зображення як base64 у markdown/html (за замовчуванням: true)

Як це працює

MCP-сервер спілкується через stdio за протоколом JSON-RPC 2.0. Коли AI-асистенту потрібно прочитати PDF, він надсилає запит tools/call і отримує у відповідь видобутий вміст.

Уся обробка відбувається локально тим самим Rust-рушієм видобування, що його використовують бібліотека та CLI — жодні дані не передаються до зовнішніх сервісів.

Промпти, які можна давати асистентові

Коли MCP-сервер підключено, асистент сам викликає extract. Приклади промптів, що добре спрацьовують:

«Витягни Markdown із report.pdf у файл report.md.»
«Збережи сторінки 4–8 із contract.pdf як HTML із вбудованими зображеннями у contract.html.»
«bank-statement.pdf захищений паролем (pw: hunter2) — видобудь лише таблицю транзакцій у вигляді тексту.»

Під капотом асистент надсилає JSON-RPC-виклик приблизно такого вигляду:

{
  "jsonrpc": "2.0",
  "id": 1,
  "method": "tools/call",
  "params": {
    "name": "extract",
    "arguments": {
      "file_path": "/path/report.pdf",
      "output_path": "/path/report.md",
      "format": "markdown",
      "pages": "4-8",
      "images": true,
      "embed_images": true
    }
  }
}

Сервер записує результат у output_path і повертає коротке підтвердження — асистент далі зчитує цей файл і забирає його в свій контекст.