What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

Конвертация в Markdown

PDF Oxide конвертирует страницы PDF в чистый, читаемый Markdown. Конвейер обработки извлекает текстовые фрагменты, группирует их в строки, обращается к /StructTreeRoot для получения ролей заголовков и списков в тегированных PDF, обнаруживает промежутки многоколоночных макетов и переносы в обратном порядке чтения по оси x, группирует абзацы и генерирует синтаксис Markdown.

Начиная с v0.3.36, для тегированных PDF конвертер считывает StructRole(Heading(1..6) | ListItem | ListItemLabel | ListItemBody) напрямую из /StructTreeRoot, вместо того чтобы повторно выводить уровни заголовков из размера шрифта. Информация о ролях передаётся через вложенные MCR (H1 → Span → MCR, LI → LBody → Span → MCR). Для PDF без тегов по-прежнему применяется геометрический запасной вариант: жирный текст + увеличение размера на 5% даёт H4, а is_ordered_list_marker распознаёт 1. / 12. / a) / iv. / A., при этом отклоняя подписи к рисункам и годы.

Работа с многоколоночными макетами: фрагменты с одинаковой базовой линией, разделённые расстоянием > max(3 × font_size, 30 pt), считаются межколоночными. Переносы в обратном порядке чтения по x (от последнего к первому фрагменту в порядке столбцов) разрывают абзацы вместо того, чтобы объединять их в бессмысленные токены.

RTL: bidi-переупорядочивание по умолчанию отключено — прежнее безусловное преобразование из визуального порядка в логический ломало PDF с логическим порядком (еврейское слово בנימין переворачивалось). Лишние маркеры **bold** вокруг контекстных глифов арабского языка удаляются. Если входные данные расположены в визуальном порядке, вызывающий код может вызвать text::bidi::reorder_visual_to_logical вручную (Rust).

Встроенные изображения ограничены полезной нагрузкой base64 в 200 КБ (добавлено в v0.3.36). Изображения сверх лимита дают HTML-комментарий с указанием исходного размера; используйте image_output_dir, чтобы записывать их на диск.

Быстрый пример

Python

from pdf_oxide import PdfDocument

doc = PdfDocument("paper.pdf")
md = doc.to_markdown(0, detect_headings=True)
print(md)

Node.js

const { PdfDocument } = require("pdf-oxide");

const doc = new PdfDocument("paper.pdf");
const md = doc.toMarkdown(0, { detectHeadings: true });
console.log(md);
doc.close();

import pdfoxide "github.com/yfedoseev/pdf_oxide/go"

doc, _ := pdfoxide.Open("paper.pdf")
defer doc.Close()
md, _ := doc.ToMarkdown(0)
fmt.Println(md)

using PdfOxide.Core;

using var doc = PdfDocument.Open("paper.pdf");
var md = doc.ToMarkdown(0);
Console.WriteLine(md);

WASM

const doc = new WasmPdfDocument(bytes);
const md = doc.toMarkdown(0, true);
console.log(md);

Rust

use pdf_oxide::PdfDocument;
use pdf_oxide::converters::ConversionOptions;

let mut doc = PdfDocument::open("paper.pdf")?;
let options = ConversionOptions { detect_headings: true, ..Default::default() };
let md = doc.to_markdown(0, &options)?;
println!("{}", md);

Java

import fyi.oxide.pdf.PdfDocument;

try (PdfDocument doc = PdfDocument.open(java.nio.file.Path.of("paper.pdf"))) {
    String md = doc.toMarkdown(0);
    System.out.println(md);
}

Kotlin

import fyi.oxide.pdf.PdfDocument

PdfDocument.open(java.nio.file.Path.of("paper.pdf")).use { doc ->
    val md = doc.toMarkdown(0)
    println(md)
}

Scala

import fyi.oxide.pdf.PdfDocument
import scala.util.Using

Using.resource(PdfDocument.open("paper.pdf")) { doc =>
  val md = doc.toMarkdown(0)
  println(md)
}

Clojure

(require '[pdf-oxide.core :as pdf])

(with-open [doc (pdf/open "paper.pdf")]
  (println (pdf/to-markdown doc 0)))

PHP

use PdfOxide\PdfDocument;

$doc = PdfDocument::open('paper.pdf');
echo $doc->toMarkdown(0);
$doc->close();

Ruby

require 'pdf_oxide'

PdfOxide::PdfDocument.open('paper.pdf') do |doc|
  puts doc.to_markdown(0)
end

C++

#include <pdf_oxide/pdf_oxide.hpp>

auto doc = pdf_oxide::Document::open("paper.pdf");
auto md = doc.to_markdown(0);
std::cout << md << std::endl;

Swift

import PdfOxide

let doc = try Document.open("paper.pdf")
let md = try doc.toMarkdown(0)
print(md)

Dart

import 'package:pdf_oxide/pdf_oxide.dart';

final doc = PdfDocument.open('paper.pdf');
final md = doc.toMarkdown(0);
print(md);

library(pdfoxide)

doc <- pdf_open("paper.pdf")
md <- pdf_to_markdown(doc, 0)
cat(md)

Julia

using PdfOxide

doc = open_document("paper.pdf")
md = to_markdown(doc, 0)
println(md)

Zig

const pdf_oxide = @import("pdf_oxide");
const a = std.heap.page_allocator;

var doc = try pdf_oxide.Document.open("paper.pdf");
const md = try doc.toMarkdown(a, 0);
std.debug.print("{s}\n", .{md});

Objective-C

#import "POXPdfOxide.h"
NSError *err = nil;

POXDocument *doc = [POXDocument openPath:@"paper.pdf" error:&err];
NSString *md = [doc toMarkdown:0 error:&err];
NSLog(@"%@", md);

Elixir

{:ok, doc} = PdfOxide.open("paper.pdf")
{:ok, md} = PdfOxide.to_markdown(doc, 0)
IO.puts(md)

Справочник API

`to_markdown(page_index, ...) -> str`

Конвертирует одну страницу в Markdown.

Python Signature

doc.to_markdown(
    page: int,
    preserve_layout: bool = False,
    detect_headings: bool = True,
    include_images: bool = True,
    image_output_dir: str | None = None,
    embed_images: bool = True,
) -> str

JavaScript Signature

doc.toMarkdown(pageIndex, detectHeadings?, includeImages?, includeFormFields?) -> string

Rust Signature

pub fn to_markdown(
    &mut self,
    page_index: usize,
    options: &ConversionOptions,
) -> Result<String>

Java Signature

String toMarkdown(int pageIndex)

Kotlin Signature

fun toMarkdown(pageIndex: Int): String

Scala Signature

def toMarkdown(pageIndex: Int): String

Clojure Signature

(pdf/to-markdown doc page-index) ; => String

PHP Signature

public function toMarkdown(int $pageIndex): string

Ruby Signature

doc.to_markdown(page_index) # => String

C++ Signature

std::string to_markdown(int page_index) const;

Swift Signature

func toMarkdown(_ pageIndex: Int) throws -> String

Dart Signature

String toMarkdown(int pageIndex)

R Signature

pdf_to_markdown(doc, page_index)  # character

Julia Signature

to_markdown(doc, page_index)::String

Zig Signature

pub fn toMarkdown(self: *Document, allocator: std.mem.Allocator, page_index: usize) ![]u8

Objective-C Signature

- (NSString *)toMarkdown:(NSInteger)pageIndex error:(NSError **)error;

Elixir Signature

PdfOxide.to_markdown(doc, page_index) :: {:ok, String.t()} | {:error, term()}

Параметр	Тип	По умолчанию	Описание
`page_index`	`int` / `usize` / `number`	–	Индекс страницы, начиная с нуля
`preserve_layout`	`bool`	`false`	Сохранять визуальное расположение элементов
`detect_headings`	`bool`	`true`	Обнаруживать заголовки по размеру и насыщенности шрифта
`include_images`	`bool`	`true`	Включать изображения в вывод
`image_output_dir`	`str` / `None`	`None`	Каталог для сохранения извлечённых изображений (только Python/Rust). Не зависит от лимита 200 КБ для встроенных изображений.
`embed_images`	`bool`	`true`	Встраивать изображения как base64 data URI (только Python/Rust). Нагрузка свыше 200 КБ выводит HTML-комментарий с исходным размером (v0.3.36).
`include_form_fields`	`bool`	`true`	Включать значения полей форм (Python/JS)

Возвращает: строку Markdown для страницы.

`to_markdown_all(...) -> str`

Конвертирует все страницы в Markdown с разделением горизонтальными линиями (---).