PDF Oxide MCP Server — extração de PDF para assistentes de IA
pdf-oxide-mcp é um servidor Model Context Protocol que permite aos assistentes de IA ler o conteúdo dos seus PDFs. Tudo roda localmente — nenhum arquivo sai da sua máquina.
Instale o crgx (uma vez só)
crgx é um runner no estilo npx para binários Rust: ele baixa o pdf_oxide_mcp automaticamente na primeira execução. Não precisa instalar nada do MCP na mão.
Linux / macOS
curl -fsSL crgx.dev/install.sh | sh
Windows (PowerShell)
irm crgx.dev/install.ps1 | iex
Configuração
Depois de instalar o crgx, adicione a configuração abaixo na sua ferramenta de IA. É só isso — o crgx cuida sozinho do download e da atualização do pdf_oxide_mcp.
Claude Desktop
Adicione ao ~/.config/claude/claude_desktop_config.json (Linux) ou ~/Library/Application Support/Claude/claude_desktop_config.json (macOS):
{
"mcpServers": {
"pdf-oxide": {
"command": "crgx",
"args": ["pdf_oxide_mcp@latest"]
}
}
}
Claude Code
Adicione ao .claude/settings.json do seu projeto:
{
"mcpServers": {
"pdf-oxide": {
"command": "crgx",
"args": ["pdf_oxide_mcp@latest"]
}
}
}
Cursor
Adicione nas configurações MCP do Cursor:
{
"mcpServers": {
"pdf-oxide": {
"command": "crgx",
"args": ["pdf_oxide_mcp@latest"]
}
}
}
Outras formas de instalar
Se preferir não usar o crgx, dá para instalar o pdf_oxide_mcp direto:
Homebrew (macOS / Linux)
brew install yfedoseev/tap/pdf-oxide # inclui pdf-oxide-mcp
Cargo
cargo install pdf_oxide_mcp
Depois aponte a configuração direto para o binário:
{
"mcpServers": {
"pdf-oxide": {
"command": "pdf-oxide-mcp"
}
}
}
Ferramentas disponíveis
extract
Extrai texto, Markdown ou HTML de um arquivo PDF.
| Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
file_path |
string | Sim | Caminho do arquivo PDF |
output_path |
string | Sim | Caminho onde o conteúdo extraído será gravado |
format |
string | Não | "text" (padrão), "markdown" ou "html" |
pages |
string | Não | Intervalo de páginas, ex.: "1-3,7,10-12" |
password |
string | Não | Senha para PDFs criptografados |
images |
boolean | Não | Salva as imagens em arquivos ao lado da saída |
embed_images |
boolean | Não | Incorpora as imagens em base64 dentro do markdown/html (padrão: true) |
Como funciona
O servidor MCP se comunica por stdio usando JSON-RPC 2.0. Quando um assistente de IA precisa ler um PDF, ele envia uma requisição tools/call e recebe o conteúdo extraído de volta.
Todo o processamento acontece localmente com o mesmo motor de extração em Rust que a biblioteca e o CLI usam — nenhum dado é enviado para serviços externos.
Prompts que você pode dar ao assistente
Com o servidor MCP conectado, o assistente chama o extract por conta própria. Alguns prompts que funcionam bem:
- “Passe o Markdown de
report.pdfparareport.md.” - “Extraia as páginas 4–8 de
contract.pdfcomo HTML com imagens embutidas e salve emcontract.html.” - “
bank-statement.pdfestá com senha (pw:hunter2) — extraia só a tabela de transações em texto.”
Por baixo dos panos, o assistente dispara uma chamada JSON-RPC mais ou menos assim:
{
"jsonrpc": "2.0",
"id": 1,
"method": "tools/call",
"params": {
"name": "extract",
"arguments": {
"file_path": "/path/report.pdf",
"output_path": "/path/report.md",
"format": "markdown",
"pages": "4-8",
"images": true,
"embed_images": true
}
}
}
O servidor grava o resultado em output_path e devolve uma confirmação curta — o assistente então lê esse arquivo e traz o conteúdo para o contexto dele.