What is the fastest Python PDF library?

PDF Oxide is the fastest Python PDF library, with 0.8ms mean text extraction time — 5.8× faster than PyMuPDF (4.6ms) and 15× faster than pypdf (12.1ms). Benchmarked on 3,830 real-world PDFs with 100% pass rate.

Is PDF Oxide free for commercial use?

Yes. PDF Oxide is MIT licensed — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL restrictions.

Can PDF Oxide handle scanned PDFs with OCR?

Yes. PDF Oxide includes built-in OCR via PaddleOCR and ONNX Runtime. No Tesseract installation needed — just pip install pdf_oxide and use extract_text_ocr(). Supports PP-OCRv3, v4, and v5 models.

Does PDF Oxide support XFA forms?

Yes. PDF Oxide is the only Python PDF library that can detect, analyze, and extract data from XFA forms (XML Forms Architecture). PyMuPDF, pypdf, pdfplumber, and pdfminer cannot read XFA form data.

How does PDF Oxide compare to PyMuPDF?

PDF Oxide is 5.8× faster than PyMuPDF (0.8ms vs 4.6ms mean), has a 100% pass rate vs 99.3%, and is MIT licensed vs PyMuPDF's AGPL-3.0. PDF Oxide also has built-in Markdown/HTML output and XFA form support that PyMuPDF lacks.

Can PDF Oxide convert PDF to Markdown?

Yes. PDF Oxide has built-in PDF to Markdown conversion with heading detection, table preservation, and list formatting — ideal for LLM and RAG pipelines. No separate package needed, unlike PyMuPDF which requires pymupdf4llm (69× slower).

Crear PDF desde HTML

Hay dos puntos de entrada disponibles:

Pdf::from_html(content) — HTML estructural básico (encabezados, párrafos, listas, código, negrita/cursiva). Sin estilo. Disponible en todos los bindings.
Pdf::from_html_css(html, css, font_bytes) — pipeline HTML+CSS puro-Rust introducido en la v0.3.37. Motor CSS propio (subconjunto de selectores L3 + L4, cascade, calc() / var(), @page / @media print), layout block / flex / grid soportado por Taffy, corte de línea UAX #14, shaping RTL con rustybuzz, ::before / ::after, page-break-*, <a href> → anotación /Link, <img> data-URI → /XObject y cascada multifuente. Cero dependencias MPL. Disponible en todos los bindings.

Ejemplo rápido

Python

from pdf_oxide import Pdf

pdf = Pdf.from_html("<h1>Hello</h1><p>World</p>")
pdf.save("out.pdf")

WASM

import { WasmPdf } from "pdf-oxide-wasm";
import { writeFileSync } from "fs";

const pdf = WasmPdf.fromHtml("<h1>Hello</h1><p>World</p>");
writeFileSync("out.pdf", pdf.toBytes());

Rust

use pdf_oxide::api::Pdf;

let pdf = Pdf::from_html("<h1>Hello</h1><p>World</p>")?;
pdf.save("out.pdf")?;

package main

import (
    "log"
    pdfoxide "github.com/yfedoseev/pdf_oxide/go"
)

func main() {
    pdf, err := pdfoxide.FromHtml("<h1>Hello</h1><p>World</p>")
    if err != nil { log.Fatal(err) }
    defer pdf.Close()

    if err := pdf.Save("out.pdf"); err != nil { log.Fatal(err) }
}

using PdfOxide;

using var pdf = Pdf.FromHtml("<h1>Hello</h1><p>World</p>");
pdf.Save("out.pdf");

Pipeline HTML + CSS (v0.3.37)

Pdf::from_html_css(html, css, font_bytes) recibe HTML, una hoja CSS y los bytes de una fuente TTF/OTF. Devuelve un PDF paginado. El round-trip byte a byte de extract_text se mantiene, así que los PDFs generados encajan en la infraestructura de pruebas existente.

Rust:

use pdf_oxide::api::Pdf;

let font = std::fs::read("DejaVuSans.ttf")?;
let pdf = Pdf::from_html_css(
    "<h1>Hello</h1><p>World</p>",
    "h1 { color: blue; font-size: 24pt } p { line-height: 1.5 }",
    font,
)?;
pdf.save("out.pdf")?;

Python:

from pdf_oxide import Pdf

with open("DejaVuSans.ttf", "rb") as f:
    font = f.read()

pdf = Pdf.from_html_css(
    "<h1>Hello</h1><p>World</p>",
    "h1 { color: blue; font-size: 24pt }",
    font,
)
pdf.save("out.pdf")

Node / TypeScript:

import { Pdf } from "pdf-oxide";
import { readFileSync } from "fs";

const font = readFileSync("DejaVuSans.ttf");
const pdf = Pdf.fromHtmlCss(
  "<h1>Hello</h1><p>World</p>",
  "h1 { color: blue; font-size: 24pt }",
  font,
);
pdf.save("out.pdf");

Go:

font, _ := os.ReadFile("DejaVuSans.ttf")
pdf, err := pdfoxide.FromHtmlCss(
    "<h1>Hello</h1><p>World</p>",
    "h1 { color: blue; font-size: 24pt }",
    font,
)
if err != nil { log.Fatal(err) }
defer pdf.Close()
_ = pdf.Save("out.pdf")

C#:

var font = File.ReadAllBytes("DejaVuSans.ttf");
using var pdf = Pdf.FromHtmlCss(
    "<h1>Hello</h1><p>World</p>",
    "h1 { color: blue; font-size: 24pt }",
    font);
pdf.Save("out.pdf");

Cascada multifuente

Usa Pdf::from_html_css_with_fonts(html, css, fonts) cuando el documento mezcle varias familias tipográficas. El font-family CSS de cualquier elemento se resuelve contra las familias registradas (sin distinguir mayúsculas, con o sin comillas, multi-palabra sin comillas). Las familias desconocidas caen a la primera fuente registrada.

from pdf_oxide import Pdf

fonts = [
    ("DejaVu Sans", open("DejaVuSans.ttf", "rb").read()),
    ("Noto Sans CJK", open("NotoSansCJKtc-Regular.otf", "rb").read()),
]

pdf = Pdf.from_html_css_with_fonts(
    '<h1 style="font-family: DejaVu Sans">English</h1>'
    '<p style="font-family: \'Noto Sans CJK\'">中文段落</p>',
    "h1 { font-size: 24pt }",
    fonts,
)
pdf.save("multilang.pdf")

El contenido CJK se subsetea automáticamente a la salida (v0.3.38 #385): un PDF con 5 caracteres contra una fuente CJK de ~17 MB suele pesar menos de 100 KB.

Superficie CSS soportada

Selectores — subconjunto L3 + L4: :is / :where / :not / :has, pseudo-clases estructurales, atributos con flags i / s.
Cascade — orden por origen, especificidad y source-order, herencia, merge de estilo inline, propiedades personalizadas (var() con detección de ciclos).
Funciones — calc(), min(), max(), clamp().
At-rules — @media print (siempre verdadera), (min/max-width), @page :first / :left / :right / :blank con cajas de margen, @font-face, @import, @supports.
Valores tipados — color (~150 nombrados, hex, rgb/rgba, hsl), longitudes (todas las unidades de CSS Values L4), display, font-size / weight / style / family, shorthand de margin / padding, line-height.
Contadores — counter / counters, counter-reset / -increment / -set, numeración romana / griega / alfabética.
Pseudo-elementos — ::before / ::after con cadenas literales, attr(name), open-quote / close-quote.
Layout — block, flex y grid (todo vía Taffy), colapso de márgenes, multicolumna (column-count / column-width / column-gap), tablas (algoritmos auto + fixed).
Inline — corte de línea UAX #14, text-align, modos white-space, saltos duros, cajas inline atómicas.
Efectos — opacity, transform: translate*(), page-break-before: always, page-break-after: always.
HTML — tokenizador HTML5, extracción de <style> / <link rel="stylesheet"> / style="" inline, decodificación de <img> data-URI (/XObject), <a href> → anotación /Link con /URI, marcadores de <ul> / <ol>.

Fuera de alcance

Filtros CSS, transformaciones 3D, animaciones, SVG dentro de HTML (todos los crates Rust de SVG son MPL), MathML, hyphens: auto, shape-outside, ejecución de JavaScript, transform con matriz completa (scale / rotate), gradientes, box-shadow.

Licencia

cargo deny check licenses pasa con cero dependencias transitivas MPL. La pila CSS de Mozilla (cssparser, selectors, html5ever, lightningcss, stylo) es toda MPL-2.0; la v0.3.37 reescribe los equivalentes a mano para mantener pdf_oxide completamente bajo MIT/Apache.

Elementos HTML soportados

Elemento	Descripción
`<h1>` a `<h6>`	Encabezados (asignados a los tamaños de encabezado del PDF)
`<p>`	Párrafos con espaciado automático
`<b>`, `<strong>`	Texto en negrita
`<i>`, `<em>`	Texto en itálica
`<ul>`, `<ol>`, `<li>`	Listas sin ordenar y ordenadas
`<pre>`, `<code>`	Código preformateado e inline
`<blockquote>`	Citas de bloque
`<br>`	Saltos de línea
`<hr>`	Reglas horizontales

Referencia completa de la API

`Pdf::from_html(content)` (método estático)

Crea un PDF desde contenido HTML usando configuración predeterminada (página Letter, márgenes de 72pt, Helvetica 12pt).

Rust:

use pdf_oxide::api::Pdf;

let html = r#"
<h1>Product Specification</h1>
<p>This document describes the <strong>technical requirements</strong>
for the new product line.</p>
<h2>Requirements</h2>
<ul>
    <li>Operating temperature: -20C to 60C</li>
    <li>Power consumption: &lt;5W</li>
    <li>Weight: &lt;200g</li>
</ul>
"#;

let pdf = Pdf::from_html(html)?;
pdf.save("spec.pdf")?;

JavaScript:

import { WasmPdf } from "pdf-oxide-wasm";
import { writeFileSync } from "fs";

const html = `
<h1>Product Specification</h1>
<p>This document describes the <strong>technical requirements</strong>
for the new product line.</p>
`;

const pdf = WasmPdf.fromHtml(html);
writeFileSync("spec.pdf", pdf.toBytes());

Python:

from pdf_oxide import Pdf

html = """
<h1>Product Specification</h1>
<p>This document describes the <strong>technical requirements</strong>
for the new product line.</p>
"""

pdf = Pdf.from_html(html)
pdf.save("spec.pdf")

Python Signature:

Pdf.from_html(
    content: str,
    title: str | None = None,
    author: str | None = None
) -> Pdf

`PdfBuilder::new().from_html(content)` (patrón builder)

Usa PdfBuilder para controlar el tamaño de página, los márgenes, el tamaño de fuente y los metadatos del documento.

Rust:

use pdf_oxide::api::PdfBuilder;
use pdf_oxide::writer::PageSize;

let pdf = PdfBuilder::new()
    .title("Technical Specification")
    .author("Engineering")
    .page_size(PageSize::A4)
    .margin(54.0)
    .font_size(11.0)
    .from_html("<h1>Spec</h1><p>Version 2.0</p>")?;

pdf.save("spec_a4.pdf")?;

Ejemplos avanzados

Reporte estructurado

use pdf_oxide::api::Pdf;

let html = r#"
<h1>Incident Report</h1>
<h2>Summary</h2>
<p>On <em>2025-11-15</em>, a service disruption was detected in the
<strong>payment processing</strong> pipeline.</p>

<h2>Timeline</h2>
<ol>
    <li>14:32 UTC - Alert triggered for elevated error rates</li>
    <li>14:35 UTC - On-call engineer acknowledged</li>
    <li>14:48 UTC - Root cause identified: database connection pool exhaustion</li>
    <li>15:02 UTC - Fix deployed, services recovering</li>
    <li>15:15 UTC - Full recovery confirmed</li>
</ol>

<h2>Root Cause</h2>
<p>A configuration change deployed at 14:00 UTC reduced the maximum
connection pool size from 100 to 10.</p>

<h2>Code Reference</h2>
<pre><code>max_connections: 10  # Should be 100
timeout_seconds: 30
</code></pre>

<h2>Action Items</h2>
<ul>
    <li>Add validation for connection pool configuration</li>
    <li>Implement canary deployment for config changes</li>
    <li>Add alerting for connection pool utilization</li>
</ul>
"#;

let pdf = Pdf::from_html(html)?;
pdf.save("incident_report.pdf")?;

Python con HTML dinámico

from pdf_oxide import Pdf

rows = [
    ("Widget A", "$12.99", 150),
    ("Widget B", "$24.50", 89),
    ("Widget C", "$7.25", 312),
]

html = "<h1>Inventory Report</h1>"
html += "<p>Generated on 2025-11-20</p>"
html += "<h2>Current Stock</h2><ul>"
for name, price, qty in rows:
    html += f"<li><strong>{name}</strong> - {price} ({qty} units)</li>"
html += "</ul>"

pdf = Pdf.from_html(html, title="Inventory Report")
pdf.save("inventory.pdf")

Leer HTML desde un archivo

from pdf_oxide import Pdf

with open("report.html") as f:
    html = f.read()

pdf = Pdf.from_html(html, title="Report")
pdf.save("report.pdf")

import { WasmPdf } from "pdf-oxide-wasm";
import { readFileSync, writeFileSync } from "fs";

const html = readFileSync("report.html", "utf-8");
const pdf = WasmPdf.fromHtml(html);
writeFileSync("report.pdf", pdf.toBytes());

use pdf_oxide::api::Pdf;

let html = std::fs::read_to_string("report.html")?;
let pdf = Pdf::from_html(&html)?;
pdf.save("report.pdf")?;

Páginas relacionadas

Crear desde Markdown – Convertir Markdown a PDF
API fluida PdfBuilder – Opciones completas de configuración del constructor
API de bajo nivel DocumentBuilder – Construcción programática de páginas

Crear PDF desde HTML

Ejemplo rápido

Pipeline HTML + CSS (v0.3.37)

Cascada multifuente

Superficie CSS soportada

Fuera de alcance

Licencia

Elementos HTML soportados

Referencia completa de la API

Pdf::from_html(content) (método estático)

PdfBuilder::new().from_html(content) (patrón builder)

Ejemplos avanzados

Reporte estructurado

Python con HTML dinámico

Leer HTML desde un archivo

Páginas relacionadas

`Pdf::from_html(content)` (método estático)

`PdfBuilder::new().from_html(content)` (patrón builder)