LiteParse: extrai texto de PDF 100% local — sem SaaS nem nuvem
LiteParse é um extrator de documentos open-source criado pela LlamaIndex (empresa por trás do framework de mesmo nome para construir apps de IA). Acumula 6.761 stars no GitHub em maio de 2026 e roda 100% na sua máquina — sem enviar nada para a nuvem. É escrito em Rust (linguagem de programação focada em velocidade e segurança) e lê PDFs devolvendo o texto com as coordenadas exatas de cada bloco na página (bounding boxes, as “caixas” que marcam onde cada trecho está). A versão atual saiu em 28 de maio de 2026, a 46ª release do projeto, com commits no mesmo dia da consulta. O foco é claro: parsing rápido e leve, sem depender de modelos de IA proprietários nem de serviços cobrados por página. Para quem monta fluxos de IA que precisam ler contratos, notas fiscais ou relatórios em PDF, é a base que substitui APIs pagas.
O que faz
LiteParse converte PDFs em texto estruturado e organizado. Ele não só extrai as palavras — devolve também a posição de cada trecho na página, o que permite reconstruir tabelas, colunas e a ordem de leitura corretamente.
O projeto inclui OCR (reconhecimento óptico de caracteres, a tecnologia que “lê” texto dentro de imagens) para documentos escaneados. Isso resolve o caso clássico de notas fiscais e contratos digitalizados que viram só uma foto.
A grande sacada é onde ele roda: tudo acontece localmente, no seu computador ou servidor. Nenhum dado sai da máquina, o que importa muito para quem lida com informações sensíveis de clientes sob a LGPD (Lei Geral de Proteção de Dados).
Está disponível em quatro formatos: crate Rust, pacote npm (Node.js), versão WASM (que roda direto no navegador) e biblioteca Python via PyPI. Ou seja, dá para usar tanto num script rápido quanto dentro de um produto. Para quem está começando a montar ferramentas próprias, vale ler o guia completo de vibe coding antes de mergulhar.
Por que está em alta
O repositório passou por uma reescrita completa — a versão antiga (V1) está marcada como legado no próprio README. A V2, em Rust, é o que explica a tração recente: parsing mais rápido e binários menores.
O ritmo de manutenção é alto. Foram 46 releases até 28 de maio de 2026, com o último commit no mesmo dia da medição. A saúde geral do projeto está em 86/100, com nota máxima (25/25) em atividade e manutenção.
O pacote WASM também ajudou na adoção. Rodar parsing de PDF dentro do navegador, sem backend, abre espaço para ferramentas que antes exigiam servidor pago.
Tabela de métricas
| Métrica | Valor |
|---|---|
| Stars | 6.761 (maio 2026) |
| Licença | Apache-2.0 |
| Último update | 28/05/2026 |
| Linguagem | Rust |
| Contributors | 17 |
Para quem serve / Para quem NÃO serve
Serve para desenvolvedores e empreendedores técnicos que montam fluxos de IA do tipo RAG (Retrieval-Augmented Generation, quando a IA responde com base nos seus próprios documentos). Também serve para quem automatiza leitura de contratos, boletos e relatórios em volume, e precisa de processamento local por exigência de privacidade.
NÃO serve para quem quer uma interface pronta de arrastar-e-soltar. LiteParse é uma biblioteca: exige escrever código para funcionar. Não tem painel visual nem botão de upload.
Vale o alerta de risco: um único contribuidor responde por 74% dos commits. Se essa pessoa sair, o projeto desacelera. A comunidade ainda é pequena (nota 17/25), então não conte com suporte rápido em fóruns.
Para quem já usa dados extraídos desses documentos dentro de campanhas e automações, faz sentido entender também como usar IA para otimizar Google Ads — o texto que o LiteParse extrai vira insumo desses fluxos.
Alternativas
LlamaParse — versão em nuvem da mesma empresa. Mais fácil de usar, mas cobrada por página acima da cota gratuita diária (~1.000 páginas/dia no plano grátis em 2026). Boa para quem não quer manter infraestrutura.
Unstructured.io — open-source com camada paga na nuvem. Suporta mais formatos além de PDF (Word, HTML, e-mail), porém é mais pesado. unstructured.io.
AWS Textract — serviço da Amazon, cobrado por página processada. Robusto para escala empresarial, mas com custo recorrente e dados saindo para a nuvem da AWS. aws.amazon.com/textract.
Veredicto
Se você tem time técnico e processa PDFs em volume, LiteParse troca uma conta mensal por página por um custo zero de licença. A dependência de um único mantenedor é o ponto de atenção — para projeto crítico, acompanhe o repositório de perto. Para protótipos e automações internas, é a escolha certa hoje.
Fonte: liteparse no GitHub
CEO @leadmarkbr · Especialista em SEO e Tráfego Pago
CEO da LeadMark desde 2012. Mais de 15 anos em Google Ads, SEO/GEO e Meta Ads. Gero +60k leads/mês para 30 mil corretores de planos de saúde em todo o Brasil. Certificado Google Ads Search. Palestrante em eventos de marketing digital.