Skip to content

Создание из HTML

Доступны две точки входа:

  1. Pdf::from_html(content) — базовый структурный HTML (заголовки, абзацы, списки, код, полужирный/курсив). Без стилизации. Во всех биндингах.
  2. Pdf::from_html_css(html, css, font_bytes) — полный конвейер HTML+CSS на чистом Rust, появившийся в v0.3.37. Собственный CSS-движок (подмножество селекторов L3 + L4, каскад, calc() / var(), @page / @media print), вёрстка block / flex / grid на основе Taffy, перенос строк по UAX #14, RTL-шейпинг через rustybuzz, ::before / ::after, page-break-*, <a href> → аннотация-ссылка, <img> data-URI → /XObject, каскад из нескольких шрифтов. Ноль зависимостей под MPL. Во всех биндингах.

Быстрый пример

Python

from pdf_oxide import Pdf

pdf = Pdf.from_html("<h1>Hello</h1><p>World</p>")
pdf.save("out.pdf")

WASM

import { WasmPdf } from "pdf-oxide-wasm";
import { writeFileSync } from "fs";

const pdf = WasmPdf.fromHtml("<h1>Hello</h1><p>World</p>");
writeFileSync("out.pdf", pdf.toBytes());

Rust

use pdf_oxide::api::Pdf;

let pdf = Pdf::from_html("<h1>Hello</h1><p>World</p>")?;
pdf.save("out.pdf")?;

Go

package main

import (
    "log"
    pdfoxide "github.com/yfedoseev/pdf_oxide/go"
)

func main() {
    pdf, err := pdfoxide.FromHtml("<h1>Hello</h1><p>World</p>")
    if err != nil { log.Fatal(err) }
    defer pdf.Close()

    if err := pdf.Save("out.pdf"); err != nil { log.Fatal(err) }
}

C#

using PdfOxide;

using var pdf = Pdf.FromHtml("<h1>Hello</h1><p>World</p>");
pdf.Save("out.pdf");

Java

import fyi.oxide.pdf.Pdf;
import java.nio.file.Path;

try (Pdf pdf = Pdf.fromHtml("<h1>Hello</h1><p>World</p>")) {
    pdf.saveTo(Path.of("out.pdf"));
}

PHP

use PdfOxide\Pdf;

$pdf = Pdf::fromHtml('<h1>Hello</h1><p>World</p>');
file_put_contents('out.pdf', $pdf->save());

Ruby

require 'pdf_oxide'

PdfOxide::Pdf.from_html('<h1>Hello</h1><p>World</p>') { |pdf| pdf.save('out.pdf') }

C++

#include <pdf_oxide/pdf_oxide.hpp>

auto pdf = pdf_oxide::Pdf::from_html("<h1>Hello</h1><p>World</p>");
pdf.save("out.pdf");

Swift

import PdfOxide

let pdf = try Pdf.fromHtml("<h1>Hello</h1><p>World</p>")
try pdf.save("out.pdf")

Kotlin

import fyi.oxide.pdf.Pdf

Pdf.fromHtml("<h1>Hello</h1><p>World</p>").use { it.saveTo(java.nio.file.Path.of("out.pdf")) }

Dart

import 'package:pdf_oxide/pdf_oxide.dart';

final pdf = Pdf.fromHtml('<h1>Hello</h1><p>World</p>');
pdf.save('out.pdf');

R

library(pdfoxide)

pdf <- pdf_from_html("<h1>Hello</h1><p>World</p>")
pdf_save(pdf, "out.pdf")

Julia

using PdfOxide

pdf = from_html("<h1>Hello</h1><p>World</p>")
save(pdf, "out.pdf")

Zig

const pdf_oxide = @import("pdf_oxide");

var pdf = try pdf_oxide.Pdf.fromHtml("<h1>Hello</h1><p>World</p>");
try pdf.save("out.pdf");

Scala

import fyi.oxide.pdf.Pdf
import scala.util.Using

Using.resource(Pdf.fromHtml("<h1>Hello</h1><p>World</p>"))(_.saveTo(java.nio.file.Path.of("out.pdf")))

Clojure

(require '[pdf-oxide.core :as pdf])

(let [p (pdf/from-html "<h1>Hello</h1><p>World</p>")]
  (.saveTo p (java.nio.file.Path/of "out.pdf" (into-array String []))))

Objective-C

#import "POXPdfOxide.h"
NSError *err = nil;

POXPdf *pdf = [POXPdf fromHtml:@"<h1>Hello</h1><p>World</p>" error:&err];
[pdf saveToPath:@"out.pdf" error:&err];

Elixir

{:ok, pdf} = PdfOxide.from_html("<h1>Hello</h1><p>World</p>")
PdfOxide.save(pdf, "out.pdf")

Конвейер HTML + CSS (v0.3.37)

Pdf::from_html_css(html, css, font_bytes) принимает HTML, таблицу стилей CSS и байты шрифта TTF/OTF. Возвращает PDF с разбивкой на страницы. extract_text даёт побайтово идентичный обратный проход, поэтому полученные PDF участвуют в существующей тестовой инфраструктуре.

Rust:

use pdf_oxide::api::Pdf;

let font = std::fs::read("DejaVuSans.ttf")?;
let pdf = Pdf::from_html_css(
    "<h1>Hello</h1><p>World</p>",
    "h1 { color: blue; font-size: 24pt } p { line-height: 1.5 }",
    font,
)?;
pdf.save("out.pdf")?;

Python:

from pdf_oxide import Pdf

with open("DejaVuSans.ttf", "rb") as f:
    font = f.read()

pdf = Pdf.from_html_css(
    "<h1>Hello</h1><p>World</p>",
    "h1 { color: blue; font-size: 24pt }",
    font,
)
pdf.save("out.pdf")

Node / TypeScript:

import { Pdf } from "pdf-oxide";
import { readFileSync } from "fs";

const font = readFileSync("DejaVuSans.ttf");
const pdf = Pdf.fromHtmlCss(
  "<h1>Hello</h1><p>World</p>",
  "h1 { color: blue; font-size: 24pt }",
  font,
);
pdf.save("out.pdf");

Go:

font, _ := os.ReadFile("DejaVuSans.ttf")
pdf, err := pdfoxide.FromHtmlCss(
    "<h1>Hello</h1><p>World</p>",
    "h1 { color: blue; font-size: 24pt }",
    font,
)
if err != nil { log.Fatal(err) }
defer pdf.Close()
_ = pdf.Save("out.pdf")

C#:

var font = File.ReadAllBytes("DejaVuSans.ttf");
using var pdf = Pdf.FromHtmlCss(
    "<h1>Hello</h1><p>World</p>",
    "h1 { color: blue; font-size: 24pt }",
    font);
pdf.Save("out.pdf");

C++:

#include <pdf_oxide/pdf_oxide.hpp>
#include <fstream>

std::ifstream in("DejaVuSans.ttf", std::ios::binary);
std::string font((std::istreambuf_iterator<char>(in)), {});
auto pdf = pdf_oxide::Pdf::from_html_css(
    "<h1>Hello</h1><p>World</p>",
    "h1 { color: blue; font-size: 24pt }",
    std::vector<uint8_t>(font.begin(), font.end()));
pdf.save("out.pdf");

Swift:

import PdfOxide
import Foundation

let font = [UInt8](try Data(contentsOf: URL(fileURLWithPath: "DejaVuSans.ttf")))
let pdf = try Pdf.fromHtmlCss(
    html: "<h1>Hello</h1><p>World</p>",
    css: "h1 { color: blue; font-size: 24pt }",
    fontBytes: font)
try pdf.save("out.pdf")

Dart:

import 'dart:io';
import 'package:pdf_oxide/pdf_oxide.dart';

final font = File('DejaVuSans.ttf').readAsBytesSync();
final pdf = Pdf.fromHtmlCss(
    '<h1>Hello</h1><p>World</p>',
    'h1 { color: blue; font-size: 24pt }',
    font);
pdf.save('out.pdf');

R:

library(pdfoxide)

font <- readBin("DejaVuSans.ttf", "raw", file.info("DejaVuSans.ttf")$size)
pdf <- pdf_from_html_css(
    "<h1>Hello</h1><p>World</p>",
    "h1 { color: blue; font-size: 24pt }",
    font)
pdf_save(pdf, "out.pdf")

Julia:

using PdfOxide

font = read("DejaVuSans.ttf")
pdf = from_html_css(
    "<h1>Hello</h1><p>World</p>",
    "h1 { color: blue; font-size: 24pt }",
    font)
save(pdf, "out.pdf")

Zig:

const pdf_oxide = @import("pdf_oxide");
const std = @import("std");

const font = try std.fs.cwd().readFileAlloc(std.heap.page_allocator, "DejaVuSans.ttf", 1 << 24);
var pdf = try pdf_oxide.Pdf.fromHtmlCss(
    "<h1>Hello</h1><p>World</p>",
    "h1 { color: blue; font-size: 24pt }",
    font);
try pdf.save("out.pdf");

Objective-C:

#import "POXPdfOxide.h"
NSError *err = nil;

NSData *font = [NSData dataWithContentsOfFile:@"DejaVuSans.ttf"];
POXPdf *pdf = [POXPdf fromHtml:@"<h1>Hello</h1><p>World</p>"
                          css:@"h1 { color: blue; font-size: 24pt }"
                    fontBytes:font
                        error:&err];
[pdf saveToPath:@"out.pdf" error:&err];

Elixir:

font = File.read!("DejaVuSans.ttf")
{:ok, pdf} = PdfOxide.from_html_css(
    "<h1>Hello</h1><p>World</p>",
    "h1 { color: blue; font-size: 24pt }",
    font)
PdfOxide.save(pdf, "out.pdf")

Каскад из нескольких шрифтов

Используйте Pdf::from_html_css_with_fonts(html, css, fonts), когда документ сочетает несколько семейств шрифтов. CSS-свойство font-family на любом элементе сопоставляется с зарегистрированными семействами (без учёта регистра, с кавычками и без, многословные имена без кавычек). Неизвестные семейства откатываются к первому зарегистрированному шрифту.

from pdf_oxide import Pdf

fonts = [
    ("DejaVu Sans", open("DejaVuSans.ttf", "rb").read()),
    ("Noto Sans CJK", open("NotoSansCJKtc-Regular.otf", "rb").read()),
]

pdf = Pdf.from_html_css_with_fonts(
    '<h1 style="font-family: DejaVu Sans">English</h1>'
    '<p style="font-family: \'Noto Sans CJK\'">中文段落</p>',
    "h1 { font-size: 24pt }",
    fonts,
)
pdf.save("multilang.pdf")

CJK-содержимое автоматически подвергается субсеттингу на выходе (v0.3.38 #385) — PDF из 5 символов шрифта CJK размером около 17 МБ обычно занимает менее 100 КБ.

Поддерживаемая часть CSS

  • Селекторы — подмножество L3 + L4: :is / :where / :not / :has, структурные псевдоклассы, сопоставители атрибутов с флагами i / s.
  • Каскад — сортировка по источнику / специфичности / порядку в исходнике, наследование, слияние инлайн-стилей, пользовательские свойства (var() с обнаружением циклов).
  • Функцииcalc(), min(), max(), clamp().
  • At-правила@media print (всегда истинно), (min/max-width), @page :first / :left / :right / :blank с боксами полей, @font-face, @import, @supports.
  • Типизированные значения — цвет (~150 именованных, hex, rgb/rgba, hsl), длина (все единицы CSS Values L4), display, font-size / weight / style / family, сокращённые margin / padding, line-height.
  • Счётчикиcounter / counters, counter-reset / -increment / -set, римская / греческая / буквенная нумерация.
  • Псевдоэлементы::before / ::after со строковыми литералами, attr(name), open-quote / close-quote.
  • Вёрстка — block, flex, grid (всё через Taffy), схлопывание полей, многоколоночность (column-count / column-width / column-gap), таблицы (алгоритмы колонок auto и fixed).
  • Инлайн — перенос строк по UAX #14, text-align, режимы white-space, жёсткие переносы, атомарные инлайн-боксы.
  • Эффектыopacity, transform: translate*(), page-break-before: always, page-break-after: always.
  • HTML — токенизатор HTML5, извлечение <style> / <link rel="stylesheet"> / инлайн style="", декодирование <img> data-URI (/XObject), <a href> → аннотация /Link с /URI, маркеры списков <ul> / <ol>.

Вне рамок

CSS-фильтры, 3D-трансформации, анимации, SVG внутри HTML (любой жизнеспособный Rust-крейт для SVG имеет лицензию MPL), MathML, hyphens: auto, shape-outside, выполнение JavaScript, полноматричный transform (масштаб / поворот), градиенты, box-shadow.

Лицензия

cargo deny check licenses проходит с нулём транзитивных зависимостей под MPL. CSS-стек от Mozilla (cssparser, selectors, html5ever, lightningcss, stylo) полностью под MPL-2.0; в v0.3.37 эквиваленты написаны вручную, чтобы pdf_oxide целиком оставался под MIT/Apache.

Поддерживаемые элементы HTML

Элемент Описание
<h1><h6> Заголовки (сопоставлены с размерами заголовков PDF)
<p> Абзацы с автоматическими отступами
<b>, <strong> Полужирный текст
<i>, <em> Курсивный текст
<ul>, <ol>, <li> Маркированные и нумерованные списки
<pre>, <code> Преформатированный и инлайн-код
<blockquote> Блочные цитаты
<br> Разрывы строк
<hr> Горизонтальные линии

Полный справочник API

Pdf::from_html(content) (статический метод)

Создаёт PDF из HTML-содержимого с настройками по умолчанию (страница Letter, поля 72pt, шрифт Helvetica 12pt).

Rust:

use pdf_oxide::api::Pdf;

let html = r#"
<h1>Product Specification</h1>
<p>This document describes the <strong>technical requirements</strong>
for the new product line.</p>
<h2>Requirements</h2>
<ul>
    <li>Operating temperature: -20C to 60C</li>
    <li>Power consumption: &lt;5W</li>
    <li>Weight: &lt;200g</li>
</ul>
"#;

let pdf = Pdf::from_html(html)?;
pdf.save("spec.pdf")?;

JavaScript:

import { WasmPdf } from "pdf-oxide-wasm";
import { writeFileSync } from "fs";

const html = `
<h1>Product Specification</h1>
<p>This document describes the <strong>technical requirements</strong>
for the new product line.</p>
`;

const pdf = WasmPdf.fromHtml(html);
writeFileSync("spec.pdf", pdf.toBytes());

Python:

from pdf_oxide import Pdf

html = """
<h1>Product Specification</h1>
<p>This document describes the <strong>technical requirements</strong>
for the new product line.</p>
"""

pdf = Pdf.from_html(html)
pdf.save("spec.pdf")

Java:

import fyi.oxide.pdf.Pdf;
import java.nio.file.Path;

String html = "<h1>Product Specification</h1>"
            + "<p>This document describes the <strong>technical requirements</strong>.</p>";

try (Pdf pdf = Pdf.fromHtml(html)) {
    pdf.saveTo(Path.of("spec.pdf"));
}

PHP:

use PdfOxide\Pdf;

$html = '<h1>Product Specification</h1>'
      . '<p>This document describes the <strong>technical requirements</strong>.</p>';

$pdf = Pdf::fromHtml($html);
file_put_contents('spec.pdf', $pdf->save());

Ruby:

require 'pdf_oxide'

html = '<h1>Product Specification</h1>' \
       '<p>This document describes the <strong>technical requirements</strong>.</p>'

PdfOxide::Pdf.from_html(html) { |pdf| pdf.save('spec.pdf') }

C++:

#include <pdf_oxide/pdf_oxide.hpp>

std::string html =
    "<h1>Product Specification</h1>"
    "<p>This document describes the <strong>technical requirements</strong>.</p>";

auto pdf = pdf_oxide::Pdf::from_html(html);
pdf.save("spec.pdf");

Swift:

import PdfOxide

let html = """
<h1>Product Specification</h1>
<p>This document describes the <strong>technical requirements</strong>.</p>
"""

let pdf = try Pdf.fromHtml(html)
try pdf.save("spec.pdf")

Kotlin:

import fyi.oxide.pdf.Pdf

val html = """
    <h1>Product Specification</h1>
    <p>This document describes the <strong>technical requirements</strong>.</p>
""".trimIndent()

Pdf.fromHtml(html).use { it.saveTo(java.nio.file.Path.of("spec.pdf")) }

Dart:

import 'package:pdf_oxide/pdf_oxide.dart';

final html = '<h1>Product Specification</h1>'
    '<p>This document describes the <strong>technical requirements</strong>.</p>';

final pdf = Pdf.fromHtml(html);
pdf.save('spec.pdf');

R:

library(pdfoxide)

html <- paste0(
    "<h1>Product Specification</h1>",
    "<p>This document describes the <strong>technical requirements</strong>.</p>")

pdf <- pdf_from_html(html)
pdf_save(pdf, "spec.pdf")

Julia:

using PdfOxide

html = """
<h1>Product Specification</h1>
<p>This document describes the <strong>technical requirements</strong>.</p>
"""

pdf = from_html(html)
save(pdf, "spec.pdf")

Zig:

const pdf_oxide = @import("pdf_oxide");

const html =
    "<h1>Product Specification</h1>" ++
    "<p>This document describes the <strong>technical requirements</strong>.</p>";

var pdf = try pdf_oxide.Pdf.fromHtml(html);
try pdf.save("spec.pdf");

Scala:

import fyi.oxide.pdf.Pdf
import scala.util.Using

val html =
  "<h1>Product Specification</h1>" +
  "<p>This document describes the <strong>technical requirements</strong>.</p>"

Using.resource(Pdf.fromHtml(html))(_.saveTo(java.nio.file.Path.of("spec.pdf")))

Clojure:

(require '[pdf-oxide.core :as pdf])

(let [html (str "<h1>Product Specification</h1>"
                "<p>This document describes the <strong>technical requirements</strong>.</p>")
      p    (pdf/from-html html)]
  (.saveTo p (java.nio.file.Path/of "spec.pdf" (into-array String []))))

Objective-C:

#import "POXPdfOxide.h"
NSError *err = nil;

NSString *html = @"<h1>Product Specification</h1>"
                  "<p>This document describes the <strong>technical requirements</strong>.</p>";

POXPdf *pdf = [POXPdf fromHtml:html error:&err];
[pdf saveToPath:@"spec.pdf" error:&err];

Elixir:

html =
  "<h1>Product Specification</h1>" <>
  "<p>This document describes the <strong>technical requirements</strong>.</p>"

{:ok, pdf} = PdfOxide.from_html(html)
PdfOxide.save(pdf, "spec.pdf")

Сигнатура Python:

Pdf.from_html(
    content: str,
    title: str | None = None,
    author: str | None = None
) -> Pdf

PdfBuilder::new().from_html(content) (паттерн «строитель»)

Используйте PdfBuilder для управления размером страницы, полями, размером шрифта и метаданными документа.

Rust:

use pdf_oxide::api::PdfBuilder;
use pdf_oxide::writer::PageSize;

let pdf = PdfBuilder::new()
    .title("Technical Specification")
    .author("Engineering")
    .page_size(PageSize::A4)
    .margin(54.0)
    .font_size(11.0)
    .from_html("<h1>Spec</h1><p>Version 2.0</p>")?;

pdf.save("spec_a4.pdf")?;

Продвинутые примеры

Структурированный отчёт

use pdf_oxide::api::Pdf;

let html = r#"
<h1>Incident Report</h1>
<h2>Summary</h2>
<p>On <em>2025-11-15</em>, a service disruption was detected in the
<strong>payment processing</strong> pipeline.</p>

<h2>Timeline</h2>
<ol>
    <li>14:32 UTC - Alert triggered for elevated error rates</li>
    <li>14:35 UTC - On-call engineer acknowledged</li>
    <li>14:48 UTC - Root cause identified: database connection pool exhaustion</li>
    <li>15:02 UTC - Fix deployed, services recovering</li>
    <li>15:15 UTC - Full recovery confirmed</li>
</ol>

<h2>Root Cause</h2>
<p>A configuration change deployed at 14:00 UTC reduced the maximum
connection pool size from 100 to 10.</p>

<h2>Code Reference</h2>
<pre><code>max_connections: 10  # Should be 100
timeout_seconds: 30
</code></pre>

<h2>Action Items</h2>
<ul>
    <li>Add validation for connection pool configuration</li>
    <li>Implement canary deployment for config changes</li>
    <li>Add alerting for connection pool utilization</li>
</ul>
"#;

let pdf = Pdf::from_html(html)?;
pdf.save("incident_report.pdf")?;

Python с динамическим HTML

from pdf_oxide import Pdf

rows = [
    ("Widget A", "$12.99", 150),
    ("Widget B", "$24.50", 89),
    ("Widget C", "$7.25", 312),
]

html = "<h1>Inventory Report</h1>"
html += "<p>Generated on 2025-11-20</p>"
html += "<h2>Current Stock</h2><ul>"
for name, price, qty in rows:
    html += f"<li><strong>{name}</strong> - {price} ({qty} units)</li>"
html += "</ul>"

pdf = Pdf.from_html(html, title="Inventory Report")
pdf.save("inventory.pdf")

Чтение HTML из файла

from pdf_oxide import Pdf

with open("report.html") as f:
    html = f.read()

pdf = Pdf.from_html(html, title="Report")
pdf.save("report.pdf")
import { WasmPdf } from "pdf-oxide-wasm";
import { readFileSync, writeFileSync } from "fs";

const html = readFileSync("report.html", "utf-8");
const pdf = WasmPdf.fromHtml(html);
writeFileSync("report.pdf", pdf.toBytes());
use pdf_oxide::api::Pdf;

let html = std::fs::read_to_string("report.html")?;
let pdf = Pdf::from_html(&html)?;
pdf.save("report.pdf")?;

Связанные страницы