PDF 結合・分割 — Python / Rust / Go
バインディング対応状況。 PDF の結合は Python、Rust、Go で利用できます。
extract_pagesによる分割は、現時点では Python と Rust のみで提供されています。C# と WASM のバインディングにはこれらのエディタ操作がまだ公開されていません。その場合は Rust 製 CLI(pdf-oxide merge、pdf-oxide split)を代替として使用するか、対応済みのバインディング経由で呼び出してください。
2 つの PDF を 1 つに結合します。
Python
from pdf_oxide import PdfDocument
doc = PdfDocument("main.pdf")
doc.merge_from("appendix.pdf")
doc.save("combined.pdf")
WASM
import { WasmPdfDocument } from "pdf-oxide-wasm";
// 両方の PDF を Uint8Array として読み込む
const mainDoc = new WasmPdfDocument(mainBytes);
const appendixDoc = new WasmPdfDocument(appendixBytes);
// 両方からテキストを抽出し、必要に応じて処理する
const allText = mainDoc.extractAllText() + "\n" + appendixDoc.extractAllText();
mainDoc.free();
appendixDoc.free();
Rust
use pdf_oxide::editor::DocumentEditor;
let mut editor = DocumentEditor::open("main.pdf")?;
editor.merge_from("appendix.pdf")?;
editor.save("combined.pdf")?;
Go
package main
import (
"log"
pdfoxide "github.com/yfedoseev/pdf_oxide/go"
)
func main() {
editor, err := pdfoxide.OpenEditor("main.pdf")
if err != nil { log.Fatal(err) }
defer editor.Close()
if _, err := editor.MergeFrom("appendix.pdf"); err != nil { log.Fatal(err) }
if err := editor.Save("combined.pdf"); err != nil { log.Fatal(err) }
}
PDF Oxide はページを PDF オブジェクトの層で結合するため、ドキュメント間でフォント・画像・注釈が正しく引き継がれます。
インストール
pip install pdf_oxide
PDF を結合する
すべてのページを結合
2 つ目の PDF のすべてのページを 1 つ目に追記します。
Python
from pdf_oxide import PdfDocument
doc = PdfDocument("report.pdf")
doc.merge_from("charts.pdf")
doc.save("full-report.pdf")
WASM
// WASM API: 複数のドキュメントを読み込んで処理する
const report = new WasmPdfDocument(reportBytes);
const charts = new WasmPdfDocument(chartsBytes);
// 両方のドキュメントをまとめて処理
const fullText = report.extractAllText() + "\n" + charts.extractAllText();
report.free();
charts.free();
Rust
let mut editor = DocumentEditor::open("report.pdf")?;
let pages_added = editor.merge_from("charts.pdf")?;
println!("追加したページ数: {}", pages_added);
editor.save("full-report.pdf")?;
Go
editor, _ := pdfoxide.OpenEditor("report.pdf")
defer editor.Close()
added, _ := editor.MergeFrom("charts.pdf")
fmt.Printf("追加したページ数: %d\n", added)
_ = editor.Save("full-report.pdf")
複数のファイルを一度に結合
静的メソッド Pdf.merge() を使うと、複数の PDF を 1 回の呼び出しでまとめられます。
Python
from pdf_oxide import Pdf
pdf = Pdf.merge(["intro.pdf", "chapter1.pdf", "chapter2.pdf", "appendix.pdf"])
pdf.save("book.pdf")
既存のドキュメントに対して merge_from() を連結する書き方もできます。
from pdf_oxide import PdfDocument
doc = PdfDocument("intro.pdf")
for f in ["chapter1.pdf", "chapter2.pdf", "appendix.pdf"]:
doc.merge_from(f)
doc.save("book.pdf")
WASM
// 複数の PDF を順に読み込んで処理する
const files = [introBytes, ch1Bytes, ch2Bytes, appendixBytes];
const allText = [];
for (const bytes of files) {
const doc = new WasmPdfDocument(bytes);
allText.push(doc.extractAllText());
doc.free();
}
console.log(allText.join("\n"));
Rust
let files = ["intro.pdf", "chapter1.pdf", "chapter2.pdf", "appendix.pdf"];
let mut editor = DocumentEditor::open(files[0])?;
for f in &files[1..] {
editor.merge_from(f)?;
}
editor.save("book.pdf")?;
Go
// トップレベルの Merge は結合後の PDF バイト列を 1 回の呼び出しで返す
bytes, err := pdfoxide.Merge([]string{
"intro.pdf", "chapter1.pdf", "chapter2.pdf", "appendix.pdf",
})
if err != nil { log.Fatal(err) }
_ = os.WriteFile("book.pdf", bytes, 0644)
特定のページだけを結合
ソースドキュメントから結合するページを選択できます。
Python
from pdf_oxide import PdfDocument
doc = PdfDocument("main.pdf")
# ソースからページ 0、2、4 だけを取り込む
doc.merge_pages_from("source.pdf", [0, 2, 4])
doc.save("selected.pdf")
Rust
let mut editor = DocumentEditor::open("main.pdf")?;
editor.merge_pages_from("source.pdf", &[0, 2, 4])?;
editor.save("selected.pdf")?;
PDF を分割する
ページを新しいファイルに抽出
大きなドキュメントから必要なページだけを取り出します。
Python
from pdf_oxide import PdfDocument
doc = PdfDocument("book.pdf")
doc.extract_pages([0, 1, 2, 3, 4], "chapter1.pdf")
WASM
// 特定のページからテキストを抽出する
const doc = new WasmPdfDocument(bytes);
const pages = [0, 1, 2, 3, 4];
for (const i of pages) {
const text = doc.extractText(i);
console.log(`ページ ${i + 1}: ${text.slice(0, 80)}...`);
}
doc.free();
Rust
let mut editor = DocumentEditor::open("book.pdf")?;
editor.extract_pages(&[0, 1, 2, 3, 4], "chapter1.pdf")?;
1 ページずつに分割
各ページを個別ファイルとして保存します。
Python
from pdf_oxide import PdfDocument
doc = PdfDocument("document.pdf")
for i in range(doc.page_count()):
doc.extract_pages([i], f"page_{i + 1}.pdf")
Rust
let mut editor = DocumentEditor::open("document.pdf")?;
let page_count = editor.page_count()?;
for i in 0..page_count {
editor.extract_pages(&[i], &format!("page_{}.pdf", i + 1))?;
}
チャンク単位で分割
大きな PDF を N ページごとの小さなファイルに分割します。
Python
from pdf_oxide import PdfDocument
doc = PdfDocument("large.pdf")
chunk_size = 10
for start in range(0, doc.page_count(), chunk_size):
end = min(start + chunk_size, doc.page_count())
pages = list(range(start, end))
doc.extract_pages(pages, f"chunk_{start // chunk_size + 1}.pdf")
Rust
let mut editor = DocumentEditor::open("large.pdf")?;
let page_count = editor.page_count()?;
let chunk_size = 10;
for start in (0..page_count).step_by(chunk_size) {
let end = (start + chunk_size).min(page_count);
let pages: Vec<usize> = (start..end).collect();
editor.extract_pages(&pages, &format!("chunk_{}.pdf", start / chunk_size + 1))?;
}
関連ページ
- ページ操作 — 回転、トリミング、並べ替え
- バッチ処理 — 並列処理のパターン
- Python ではじめる — インストールと基本