LiteParse: extrai texto de PDF 100% local

LiteParse é um extrator de documentos open-source criado pela LlamaIndex (empresa por trás do framework de mesmo nome para construir apps de IA). Acumula 6.761 stars no GitHub em maio de 2026 e roda 100% na sua máquina — sem enviar nada para a nuvem. É escrito em Rust (linguagem de programação focada em velocidade e segurança) e lê PDFs devolvendo o texto com as coordenadas exatas de cada bloco na página (bounding boxes, as “caixas” que marcam onde cada trecho está). A versão atual saiu em 28 de maio de 2026, a 46ª release do projeto, com commits no mesmo dia da consulta. O foco é claro: parsing rápido e leve, sem depender de modelos de IA proprietários nem de serviços cobrados por página. Para quem monta fluxos de IA que precisam ler contratos, notas fiscais ou relatórios em PDF, é a base que substitui APIs pagas.

O que faz

LiteParse converte PDFs em texto estruturado e organizado. Ele não só extrai as palavras — devolve também a posição de cada trecho na página, o que permite reconstruir tabelas, colunas e a ordem de leitura corretamente.

O projeto inclui OCR (reconhecimento óptico de caracteres, a tecnologia que “lê” texto dentro de imagens) para documentos escaneados. Isso resolve o caso clássico de notas fiscais e contratos digitalizados que viram só uma foto.

A grande sacada é onde ele roda: tudo acontece localmente, no seu computador ou servidor. Nenhum dado sai da máquina, o que importa muito para quem lida com informações sensíveis de clientes sob a LGPD (Lei Geral de Proteção de Dados).

Está disponível em quatro formatos: crate Rust, pacote npm (Node.js), versão WASM (que roda direto no navegador) e biblioteca Python via PyPI. Ou seja, dá para usar tanto num script rápido quanto dentro de um produto. Para quem está começando a montar ferramentas próprias, vale ler o guia completo de vibe coding antes de mergulhar.

Por que está em alta

O repositório passou por uma reescrita completa — a versão antiga (V1) está marcada como legado no próprio README. A V2, em Rust, é o que explica a tração recente: parsing mais rápido e binários menores.

O ritmo de manutenção é alto. Foram 46 releases até 28 de maio de 2026, com o último commit no mesmo dia da medição. A saúde geral do projeto está em 86/100, com nota máxima (25/25) em atividade e manutenção.

O pacote WASM também ajudou na adoção. Rodar parsing de PDF dentro do navegador, sem backend, abre espaço para ferramentas que antes exigiam servidor pago.

Tabela de métricas

Métrica	Valor
Stars	6.761 (maio 2026)
Licença	Apache-2.0
Último update	28/05/2026
Linguagem	Rust
Contributors	17

Para quem serve / Para quem NÃO serve

Serve para desenvolvedores e empreendedores técnicos que montam fluxos de IA do tipo RAG (Retrieval-Augmented Generation, quando a IA responde com base nos seus próprios documentos). Também serve para quem automatiza leitura de contratos, boletos e relatórios em volume, e precisa de processamento local por exigência de privacidade.

NÃO serve para quem quer uma interface pronta de arrastar-e-soltar. LiteParse é uma biblioteca: exige escrever código para funcionar. Não tem painel visual nem botão de upload.

Vale o alerta de risco: um único contribuidor responde por 74% dos commits. Se essa pessoa sair, o projeto desacelera. A comunidade ainda é pequena (nota 17/25), então não conte com suporte rápido em fóruns.

Para quem já usa dados extraídos desses documentos dentro de campanhas e automações, faz sentido entender também como usar IA para otimizar Google Ads — o texto que o LiteParse extrai vira insumo desses fluxos.

Alternativas

LlamaParse — versão em nuvem da mesma empresa. Mais fácil de usar, mas cobrada por página acima da cota gratuita diária (~1.000 páginas/dia no plano grátis em 2026). Boa para quem não quer manter infraestrutura.

Unstructured.io — open-source com camada paga na nuvem. Suporta mais formatos além de PDF (Word, HTML, e-mail), porém é mais pesado. unstructured.io.

AWS Textract — serviço da Amazon, cobrado por página processada. Robusto para escala empresarial, mas com custo recorrente e dados saindo para a nuvem da AWS. aws.amazon.com/textract.

Veredicto

Se você tem time técnico e processa PDFs em volume, LiteParse troca uma conta mensal por página por um custo zero de licença. A dependência de um único mantenedor é o ponto de atenção — para projeto crítico, acompanhe o repositório de perto. Para protótipos e automações internas, é a escolha certa hoje.

Fonte: liteparse no GitHub