What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

Создание из HTML

Доступны две точки входа:

Pdf::from_html(content) — базовый структурный HTML (заголовки, абзацы, списки, код, полужирный/курсив). Без стилизации. Во всех биндингах.
Pdf::from_html_css(html, css, font_bytes) — полный конвейер HTML+CSS на чистом Rust, появившийся в v0.3.37. Собственный CSS-движок (подмножество селекторов L3 + L4, каскад, calc() / var(), @page / @media print), вёрстка block / flex / grid на основе Taffy, перенос строк по UAX #14, RTL-шейпинг через rustybuzz, ::before / ::after, page-break-*, <a href> → аннотация-ссылка, <img> data-URI → /XObject, каскад из нескольких шрифтов. Ноль зависимостей под MPL. Во всех биндингах.

Быстрый пример

Python

from pdf_oxide import Pdf

pdf = Pdf.from_html("<h1>Hello</h1><p>World</p>")
pdf.save("out.pdf")

WASM

import { WasmPdf } from "pdf-oxide-wasm";
import { writeFileSync } from "fs";

const pdf = WasmPdf.fromHtml("<h1>Hello</h1><p>World</p>");
writeFileSync("out.pdf", pdf.toBytes());

Rust

use pdf_oxide::api::Pdf;

let pdf = Pdf::from_html("<h1>Hello</h1><p>World</p>")?;
pdf.save("out.pdf")?;

package main

import (
    "log"
    pdfoxide "github.com/yfedoseev/pdf_oxide/go"
)

func main() {
    pdf, err := pdfoxide.FromHtml("<h1>Hello</h1><p>World</p>")
    if err != nil { log.Fatal(err) }
    defer pdf.Close()

    if err := pdf.Save("out.pdf"); err != nil { log.Fatal(err) }
}

using PdfOxide;

using var pdf = Pdf.FromHtml("<h1>Hello</h1><p>World</p>");
pdf.Save("out.pdf");

Java

import fyi.oxide.pdf.Pdf;
import java.nio.file.Path;

try (Pdf pdf = Pdf.fromHtml("<h1>Hello</h1><p>World</p>")) {
    pdf.saveTo(Path.of("out.pdf"));
}

PHP

use PdfOxide\Pdf;

$pdf = Pdf::fromHtml('<h1>Hello</h1><p>World</p>');
file_put_contents('out.pdf', $pdf->save());

Ruby

require 'pdf_oxide'

PdfOxide::Pdf.from_html('<h1>Hello</h1><p>World</p>') { |pdf| pdf.save('out.pdf') }

C++

#include <pdf_oxide/pdf_oxide.hpp>

auto pdf = pdf_oxide::Pdf::from_html("<h1>Hello</h1><p>World</p>");
pdf.save("out.pdf");

Swift

import PdfOxide

let pdf = try Pdf.fromHtml("<h1>Hello</h1><p>World</p>")
try pdf.save("out.pdf")

Kotlin

import fyi.oxide.pdf.Pdf

Pdf.fromHtml("<h1>Hello</h1><p>World</p>").use { it.saveTo(java.nio.file.Path.of("out.pdf")) }

Dart

import 'package:pdf_oxide/pdf_oxide.dart';

final pdf = Pdf.fromHtml('<h1>Hello</h1><p>World</p>');
pdf.save('out.pdf');

library(pdfoxide)

pdf <- pdf_from_html("<h1>Hello</h1><p>World</p>")
pdf_save(pdf, "out.pdf")

Julia

using PdfOxide

pdf = from_html("<h1>Hello</h1><p>World</p>")
save(pdf, "out.pdf")

Zig

const pdf_oxide = @import("pdf_oxide");

var pdf = try pdf_oxide.Pdf.fromHtml("<h1>Hello</h1><p>World</p>");
try pdf.save("out.pdf");

Scala

import fyi.oxide.pdf.Pdf
import scala.util.Using

Using.resource(Pdf.fromHtml("<h1>Hello</h1><p>World</p>"))(_.saveTo(java.nio.file.Path.of("out.pdf")))

Clojure

(require '[pdf-oxide.core :as pdf])

(let [p (pdf/from-html "<h1>Hello</h1><p>World</p>")]
  (.saveTo p (java.nio.file.Path/of "out.pdf" (into-array String []))))

Objective-C

#import "POXPdfOxide.h"
NSError *err = nil;

POXPdf *pdf = [POXPdf fromHtml:@"<h1>Hello</h1><p>World</p>" error:&err];
[pdf saveToPath:@"out.pdf" error:&err];

Elixir

{:ok, pdf} = PdfOxide.from_html("<h1>Hello</h1><p>World</p>")
PdfOxide.save(pdf, "out.pdf")

Конвейер HTML + CSS (v0.3.37)

Pdf::from_html_css(html, css, font_bytes) принимает HTML, таблицу стилей CSS и байты шрифта TTF/OTF. Возвращает PDF с разбивкой на страницы. extract_text даёт побайтово идентичный обратный проход, поэтому полученные PDF участвуют в существующей тестовой инфраструктуре.

Rust:

use pdf_oxide::api::Pdf;

let font = std::fs::read("DejaVuSans.ttf")?;
let pdf = Pdf::from_html_css(
    "<h1>Hello</h1><p>World</p>",
    "h1 { color: blue; font-size: 24pt } p { line-height: 1.5 }",
    font,
)?;
pdf.save("out.pdf")?;

Python:

from pdf_oxide import Pdf

with open("DejaVuSans.ttf", "rb") as f:
    font = f.read()

pdf = Pdf.from_html_css(
    "<h1>Hello</h1><p>World</p>",
    "h1 { color: blue; font-size: 24pt }",
    font,
)
pdf.save("out.pdf")

Node / TypeScript:

import { Pdf } from "pdf-oxide";
import { readFileSync } from "fs";

const font = readFileSync("DejaVuSans.ttf");
const pdf = Pdf.fromHtmlCss(
  "<h1>Hello</h1><p>World</p>",
  "h1 { color: blue; font-size: 24pt }",
  font,
);
pdf.save("out.pdf");

Go:

font, _ := os.ReadFile("DejaVuSans.ttf")
pdf, err := pdfoxide.FromHtmlCss(
    "<h1>Hello</h1><p>World</p>",
    "h1 { color: blue; font-size: 24pt }",
    font,
)
if err != nil { log.Fatal(err) }
defer pdf.Close()
_ = pdf.Save("out.pdf")

C#:

var font = File.ReadAllBytes("DejaVuSans.ttf");
using var pdf = Pdf.FromHtmlCss(
    "<h1>Hello</h1><p>World</p>",
    "h1 { color: blue; font-size: 24pt }",
    font);
pdf.Save("out.pdf");

C++:

#include <pdf_oxide/pdf_oxide.hpp>
#include <fstream>

std::ifstream in("DejaVuSans.ttf", std::ios::binary);
std::string font((std::istreambuf_iterator<char>(in)), {});
auto pdf = pdf_oxide::Pdf::from_html_css(
    "<h1>Hello</h1><p>World</p>",
    "h1 { color: blue; font-size: 24pt }",
    std::vector<uint8_t>(font.begin(), font.end()));
pdf.save("out.pdf");

Swift:

import PdfOxide
import Foundation

let font = [UInt8](try Data(contentsOf: URL(fileURLWithPath: "DejaVuSans.ttf")))
let pdf = try Pdf.fromHtmlCss(
    html: "<h1>Hello</h1><p>World</p>",
    css: "h1 { color: blue; font-size: 24pt }",
    fontBytes: font)
try pdf.save("out.pdf")

Dart:

import 'dart:io';
import 'package:pdf_oxide/pdf_oxide.dart';

final font = File('DejaVuSans.ttf').readAsBytesSync();
final pdf = Pdf.fromHtmlCss(
    '<h1>Hello</h1><p>World</p>',
    'h1 { color: blue; font-size: 24pt }',
    font);
pdf.save('out.pdf');

library(pdfoxide)

font <- readBin("DejaVuSans.ttf", "raw", file.info("DejaVuSans.ttf")$size)
pdf <- pdf_from_html_css(
    "<h1>Hello</h1><p>World</p>",
    "h1 { color: blue; font-size: 24pt }",
    font)
pdf_save(pdf, "out.pdf")

Julia:

using PdfOxide

font = read("DejaVuSans.ttf")
pdf = from_html_css(
    "<h1>Hello</h1><p>World</p>",
    "h1 { color: blue; font-size: 24pt }",
    font)
save(pdf, "out.pdf")

Zig:

const pdf_oxide = @import("pdf_oxide");
const std = @import("std");

const font = try std.fs.cwd().readFileAlloc(std.heap.page_allocator, "DejaVuSans.ttf", 1 << 24);
var pdf = try pdf_oxide.Pdf.fromHtmlCss(
    "<h1>Hello</h1><p>World</p>",
    "h1 { color: blue; font-size: 24pt }",
    font);
try pdf.save("out.pdf");

Objective-C:

#import "POXPdfOxide.h"
NSError *err = nil;

NSData *font = [NSData dataWithContentsOfFile:@"DejaVuSans.ttf"];
POXPdf *pdf = [POXPdf fromHtml:@"<h1>Hello</h1><p>World</p>"
                          css:@"h1 { color: blue; font-size: 24pt }"
                    fontBytes:font
                        error:&err];
[pdf saveToPath:@"out.pdf" error:&err];

Elixir:

font = File.read!("DejaVuSans.ttf")
{:ok, pdf} = PdfOxide.from_html_css(
    "<h1>Hello</h1><p>World</p>",
    "h1 { color: blue; font-size: 24pt }",
    font)
PdfOxide.save(pdf, "out.pdf")

Каскад из нескольких шрифтов

Используйте Pdf::from_html_css_with_fonts(html, css, fonts), когда документ сочетает несколько семейств шрифтов. CSS-свойство font-family на любом элементе сопоставляется с зарегистрированными семействами (без учёта регистра, с кавычками и без, многословные имена без кавычек). Неизвестные семейства откатываются к первому зарегистрированному шрифту.

from pdf_oxide import Pdf

fonts = [
    ("DejaVu Sans", open("DejaVuSans.ttf", "rb").read()),
    ("Noto Sans CJK", open("NotoSansCJKtc-Regular.otf", "rb").read()),
]

pdf = Pdf.from_html_css_with_fonts(
    '<h1 style="font-family: DejaVu Sans">English</h1>'
    '<p style="font-family: \'Noto Sans CJK\'">中文段落</p>',
    "h1 { font-size: 24pt }",
    fonts,
)
pdf.save("multilang.pdf")

CJK-содержимое автоматически подвергается субсеттингу на выходе (v0.3.38 #385) — PDF из 5 символов шрифта CJK размером около 17 МБ обычно занимает менее 100 КБ.

Поддерживаемая часть CSS

Селекторы — подмножество L3 + L4: :is / :where / :not / :has, структурные псевдоклассы, сопоставители атрибутов с флагами i / s.
Каскад — сортировка по источнику / специфичности / порядку в исходнике, наследование, слияние инлайн-стилей, пользовательские свойства (var() с обнаружением циклов).
Функции — calc(), min(), max(), clamp().
At-правила — @media print (всегда истинно), (min/max-width), @page :first / :left / :right / :blank с боксами полей, @font-face, @import, @supports.
Типизированные значения — цвет (~150 именованных, hex, rgb/rgba, hsl), длина (все единицы CSS Values L4), display, font-size / weight / style / family, сокращённые margin / padding, line-height.
Счётчики — counter / counters, counter-reset / -increment / -set, римская / греческая / буквенная нумерация.
Псевдоэлементы — ::before / ::after со строковыми литералами, attr(name), open-quote / close-quote.
Вёрстка — block, flex, grid (всё через Taffy), схлопывание полей, многоколоночность (column-count / column-width / column-gap), таблицы (алгоритмы колонок auto и fixed).
Инлайн — перенос строк по UAX #14, text-align, режимы white-space, жёсткие переносы, атомарные инлайн-боксы.
Эффекты — opacity, transform: translate*(), page-break-before: always, page-break-after: always.
HTML — токенизатор HTML5, извлечение <style> / <link rel="stylesheet"> / инлайн style="", декодирование <img> data-URI (/XObject), <a href> → аннотация /Link с /URI, маркеры списков <ul> / <ol>.

Вне рамок

CSS-фильтры, 3D-трансформации, анимации, SVG внутри HTML (любой жизнеспособный Rust-крейт для SVG имеет лицензию MPL), MathML, hyphens: auto, shape-outside, выполнение JavaScript, полноматричный transform (масштаб / поворот), градиенты, box-shadow.

Лицензия

cargo deny check licenses проходит с нулём транзитивных зависимостей под MPL. CSS-стек от Mozilla (cssparser, selectors, html5ever, lightningcss, stylo) полностью под MPL-2.0; в v0.3.37 эквиваленты написаны вручную, чтобы pdf_oxide целиком оставался под MIT/Apache.

Поддерживаемые элементы HTML

Элемент	Описание
`<h1>` … `<h6>`	Заголовки (сопоставлены с размерами заголовков PDF)
`<p>`	Абзацы с автоматическими отступами
`<b>`, `<strong>`	Полужирный текст
`<i>`, `<em>`	Курсивный текст
`<ul>`, `<ol>`, `<li>`	Маркированные и нумерованные списки
`<pre>`, `<code>`	Преформатированный и инлайн-код
`<blockquote>`	Блочные цитаты
`<br>`	Разрывы строк
`<hr>`	Горизонтальные линии

Полный справочник API

`Pdf::from_html(content)` (статический метод)

Создаёт PDF из HTML-содержимого с настройками по умолчанию (страница Letter, поля 72pt, шрифт Helvetica 12pt).

Rust:

use pdf_oxide::api::Pdf;

let html = r#"
<h1>Product Specification</h1>
<p>This document describes the <strong>technical requirements</strong>
for the new product line.</p>
<h2>Requirements</h2>
<ul>
    <li>Operating temperature: -20C to 60C</li>
    <li>Power consumption: &lt;5W</li>
    <li>Weight: &lt;200g</li>
</ul>
"#;

let pdf = Pdf::from_html(html)?;
pdf.save("spec.pdf")?;

JavaScript:

import { WasmPdf } from "pdf-oxide-wasm";
import { writeFileSync } from "fs";

const html = `
<h1>Product Specification</h1>
<p>This document describes the <strong>technical requirements</strong>
for the new product line.</p>
`;

const pdf = WasmPdf.fromHtml(html);
writeFileSync("spec.pdf", pdf.toBytes());

Python:

from pdf_oxide import Pdf

html = """
<h1>Product Specification</h1>
<p>This document describes the <strong>technical requirements</strong>
for the new product line.</p>
"""

pdf = Pdf.from_html(html)
pdf.save("spec.pdf")

Java:

import fyi.oxide.pdf.Pdf;
import java.nio.file.Path;

String html = "<h1>Product Specification</h1>"
            + "<p>This document describes the <strong>technical requirements</strong>.</p>";

try (Pdf pdf = Pdf.fromHtml(html)) {
    pdf.saveTo(Path.of("spec.pdf"));
}

PHP:

use PdfOxide\Pdf;

$html = '<h1>Product Specification</h1>'
      . '<p>This document describes the <strong>technical requirements</strong>.</p>';

$pdf = Pdf::fromHtml($html);
file_put_contents('spec.pdf', $pdf->save());

Ruby:

require 'pdf_oxide'

html = '<h1>Product Specification</h1>' \
       '<p>This document describes the <strong>technical requirements</strong>.</p>'

PdfOxide::Pdf.from_html(html) { |pdf| pdf.save('spec.pdf') }

C++:

#include <pdf_oxide/pdf_oxide.hpp>

std::string html =
    "<h1>Product Specification</h1>"
    "<p>This document describes the <strong>technical requirements</strong>.</p>";

auto pdf = pdf_oxide::Pdf::from_html(html);
pdf.save("spec.pdf");

Swift:

import PdfOxide

let html = """
<h1>Product Specification</h1>
<p>This document describes the <strong>technical requirements</strong>.</p>
"""

let pdf = try Pdf.fromHtml(html)
try pdf.save("spec.pdf")

Kotlin:

import fyi.oxide.pdf.Pdf

val html = """
    <h1>Product Specification</h1>
    <p>This document describes the <strong>technical requirements</strong>.</p>
""".trimIndent()

Pdf.fromHtml(html).use { it.saveTo(java.nio.file.Path.of("spec.pdf")) }

Dart:

import 'package:pdf_oxide/pdf_oxide.dart';

final html = '<h1>Product Specification</h1>'
    '<p>This document describes the <strong>technical requirements</strong>.</p>';

final pdf = Pdf.fromHtml(html);
pdf.save('spec.pdf');

library(pdfoxide)

html <- paste0(
    "<h1>Product Specification</h1>",
    "<p>This document describes the <strong>technical requirements</strong>.</p>")

pdf <- pdf_from_html(html)
pdf_save(pdf, "spec.pdf")

Julia:

using PdfOxide

html = """
<h1>Product Specification</h1>
<p>This document describes the <strong>technical requirements</strong>.</p>
"""

pdf = from_html(html)
save(pdf, "spec.pdf")

Zig:

const pdf_oxide = @import("pdf_oxide");

const html =
    "<h1>Product Specification</h1>" ++
    "<p>This document describes the <strong>technical requirements</strong>.</p>";

var pdf = try pdf_oxide.Pdf.fromHtml(html);
try pdf.save("spec.pdf");

Scala:

import fyi.oxide.pdf.Pdf
import scala.util.Using

val html =
  "<h1>Product Specification</h1>" +
  "<p>This document describes the <strong>technical requirements</strong>.</p>"

Using.resource(Pdf.fromHtml(html))(_.saveTo(java.nio.file.Path.of("spec.pdf")))

Clojure:

(require '[pdf-oxide.core :as pdf])

(let [html (str "<h1>Product Specification</h1>"
                "<p>This document describes the <strong>technical requirements</strong>.</p>")
      p    (pdf/from-html html)]
  (.saveTo p (java.nio.file.Path/of "spec.pdf" (into-array String []))))

Objective-C:

#import "POXPdfOxide.h"
NSError *err = nil;

NSString *html = @"<h1>Product Specification</h1>"
                  "<p>This document describes the <strong>technical requirements</strong>.</p>";

POXPdf *pdf = [POXPdf fromHtml:html error:&err];
[pdf saveToPath:@"spec.pdf" error:&err];

Elixir:

html =
  "<h1>Product Specification</h1>" <>
  "<p>This document describes the <strong>technical requirements</strong>.</p>"

{:ok, pdf} = PdfOxide.from_html(html)
PdfOxide.save(pdf, "spec.pdf")

Сигнатура Python:

Pdf.from_html(
    content: str,
    title: str | None = None,
    author: str | None = None
) -> Pdf

`PdfBuilder::new().from_html(content)` (паттерн «строитель»)

Используйте PdfBuilder для управления размером страницы, полями, размером шрифта и метаданными документа.

Rust:

use pdf_oxide::api::PdfBuilder;
use pdf_oxide::writer::PageSize;

let pdf = PdfBuilder::new()
    .title("Technical Specification")
    .author("Engineering")
    .page_size(PageSize::A4)
    .margin(54.0)
    .font_size(11.0)
    .from_html("<h1>Spec</h1><p>Version 2.0</p>")?;

pdf.save("spec_a4.pdf")?;

Продвинутые примеры

Структурированный отчёт

use pdf_oxide::api::Pdf;

let html = r#"
<h1>Incident Report</h1>
<h2>Summary</h2>
<p>On <em>2025-11-15</em>, a service disruption was detected in the
<strong>payment processing</strong> pipeline.</p>

<h2>Timeline</h2>
<ol>
    <li>14:32 UTC - Alert triggered for elevated error rates</li>
    <li>14:35 UTC - On-call engineer acknowledged</li>
    <li>14:48 UTC - Root cause identified: database connection pool exhaustion</li>
    <li>15:02 UTC - Fix deployed, services recovering</li>
    <li>15:15 UTC - Full recovery confirmed</li>
</ol>

<h2>Root Cause</h2>
<p>A configuration change deployed at 14:00 UTC reduced the maximum
connection pool size from 100 to 10.</p>

<h2>Code Reference</h2>
<pre><code>max_connections: 10  # Should be 100
timeout_seconds: 30
</code></pre>

<h2>Action Items</h2>
<ul>
    <li>Add validation for connection pool configuration</li>
    <li>Implement canary deployment for config changes</li>
    <li>Add alerting for connection pool utilization</li>
</ul>
"#;

let pdf = Pdf::from_html(html)?;
pdf.save("incident_report.pdf")?;

Python с динамическим HTML

from pdf_oxide import Pdf

rows = [
    ("Widget A", "$12.99", 150),
    ("Widget B", "$24.50", 89),
    ("Widget C", "$7.25", 312),
]

html = "<h1>Inventory Report</h1>"
html += "<p>Generated on 2025-11-20</p>"
html += "<h2>Current Stock</h2><ul>"
for name, price, qty in rows:
    html += f"<li><strong>{name}</strong> - {price} ({qty} units)</li>"
html += "</ul>"

pdf = Pdf.from_html(html, title="Inventory Report")
pdf.save("inventory.pdf")

Чтение HTML из файла

from pdf_oxide import Pdf

with open("report.html") as f:
    html = f.read()

pdf = Pdf.from_html(html, title="Report")
pdf.save("report.pdf")

import { WasmPdf } from "pdf-oxide-wasm";
import { readFileSync, writeFileSync } from "fs";

const html = readFileSync("report.html", "utf-8");
const pdf = WasmPdf.fromHtml(html);
writeFileSync("report.pdf", pdf.toBytes());

use pdf_oxide::api::Pdf;

let html = std::fs::read_to_string("report.html")?;
let pdf = Pdf::from_html(&html)?;
pdf.save("report.pdf")?;

Связанные страницы

Создание из Markdown – Преобразование Markdown в PDF
Текучий API PdfBuilder – Полный набор параметров конфигурации строителя
Низкоуровневый API DocumentBuilder – Программное построение страниц

Создание из HTML

Быстрый пример

Конвейер HTML + CSS (v0.3.37)

Каскад из нескольких шрифтов

Поддерживаемая часть CSS

Вне рамок

Лицензия

Поддерживаемые элементы HTML

Полный справочник API

Pdf::from_html(content) (статический метод)

PdfBuilder::new().from_html(content) (паттерн «строитель»)

Продвинутые примеры

Структурированный отчёт

Python с динамическим HTML

Чтение HTML из файла

Связанные страницы

`Pdf::from_html(content)` (статический метод)

`PdfBuilder::new().from_html(content)` (паттерн «строитель»)