Como Comprimir PDFs de Documentos Escaneados
Digitalizar documentos físicos — contratos, notas fiscais, escrituras, certidões, comprovantes — é prática comum para arquivo digital. O problema: scanners geram PDFs pesados, frequentemente de 5-20MB por página em alta resolução. Um contrato de 10 páginas digitalizado pode facilmente ter 50-100MB. Para envio por e-mail ou upload em portais, isso é um problema. A compressão de PDFs escaneados pode reduzir 80-90% do tamanho sem tornar o texto ilegível.
Um documento escaneado é basicamente uma fotografia de cada página. Diferente de um PDF criado diretamente de um Word ou Excel (que contém texto vetorial e elementos gráficos compactos), um PDF escaneado contém imagens de alta resolução — uma por página. Scanners típicos de escritório produzem imagens em 300 DPI (pontos por polegada) por padrão. Uma página A4 escaneada em 300 DPI colorida produz uma imagem de aproximadamente 2480x3508 pixels. Em TIFF não comprimido (formato padrão de alguns scanners), isso ocupa cerca de 25MB por página. Mesmo em JPEG, pode ser 2-5MB por página. Um contrato de 10 páginas escaneado em 300 DPI JPEG: 20-50MB. O mesmo contrato como PDF de texto nativo (criado digitalmente): 100-200KB. A diferença é de 200x a 500x. Para arquivo de longo prazo, 300 DPI é o mínimo recomendado para preservar a qualidade. Para envio e compartilhamento digital, 150 DPI é mais que suficiente e resulta em arquivos 4x menores que 300 DPI. A compressão de PDFs escaneados funciona recomprimindo as imagens em resolução e qualidade menores, adaptadas para o uso digital em vez de impressão.
A melhor compressão começa antes do scan — configurar o scanner corretamente evita criar um arquivo muito grande para comprimir depois. Resolução por tipo de documento: - Texto simples (contratos, cartas, recibos): 150-200 DPI é suficiente para leitura digital. Use 300 DPI apenas se precisará imprimir o documento escaneado com qualidade. - Documentos com fotos ou gráficos importantes: 300 DPI. - Documentos de arquivo de longo prazo (escrituras, certidões originais): 300-400 DPI colorido. Formato de saída: - JPEG ou PDF comprimido: para uso cotidiano. - TIFF: para arquivo de longo prazo de documentos originais importantes. Modo de cor: - Texto puro em papel branco: escala de cinza ou preto e branco (1 bit). Muito mais compacto que colorido. - Documentos com assinaturas coloridas ou carimbos: escala de cinza captura adequadamente. - Documentos com gráficos ou fotos coloridas: colorido. Se você já digitalizou documentos em alta resolução e agora precisa compartilhá-los, a compressão post-facto com o WikiPlus é o caminho. Se você ainda vai digitalizar, escolher as configurações corretas é mais eficiente.
O nível adequado de compressão para PDFs escaneados depende do destino do documento. E-mail (limite de 10-25MB): use compressão alta. Um documento de 10 páginas escaneado que começa com 50MB deve ficar abaixo de 5MB para e-mail. Com compressão alta, 90% de redução é frequentemente possível para PDFs escaneados. Portais governamentais (5-10MB por arquivo): compressão alta também. Para documentos como certidões, comprovantes e laudos para sistemas como e-CAC, PJe e outros portais públicos, o limite é frequentemente baixo. Comprima para ficar abaixo de 3MB para ter margem de segurança. Arquivo digital pessoal: compressão média. Você quer equilibrar tamanho com preservação da legibilidade para leitura futura. 150-200 DPI com JPEG moderado é um bom equilíbrio. Arquivo corporativo de longo prazo: compressão baixa ou nenhuma. Documentos como escrituras, contratos originais e certidões que você precisa preservar com qualidade máxima por décadas devem manter a resolução original. WhatsApp e comunicação informal: compressão alta. Para enviar comprovantes, notas e documentos casuais, o destinatário vai ler em tela de celular — 72-96 DPI com compressão JPEG é mais que suficiente.
Uma alternativa à compressão de imagens é o OCR (Optical Character Recognition) — tecnologia que reconhece o texto nas imagens do PDF e cria uma camada de texto pesquisável e selecionável por cima. Vantagens do OCR: PDF muito mais compacto quando o texto é indexado em vez de armazenado como imagem; texto pesquisável e copiável; melhor acessibilidade para leitores de tela; texto indexado pelo Google para PDFs publicados em sites. Como funciona: o software analisa as imagens das páginas, identifica caracteres, e gera texto que é inserido como uma camada invisível no PDF. A imagem original fica no fundo; o texto reconhecido fica em cima, alinhado. Limitações: o OCR pode errar em textos manuscritos, fontes pouco comuns, documentos com má qualidade de digitalização, ou documentos com muita inclinação. Ferramentas de OCR gratuitas: o WikiPlus tem ferramenta de OCR específica. Google Drive reconhece texto ao abrir PDFs com 'Abrir com Google Docs'. Adobe Acrobat Reader pode fazer OCR básico. Tesseract é uma ferramenta de linha de comando open-source muito poderosa. Para documentos que você vai arquivar por longo prazo e acessar frequentemente, converter de escaneado para PDF com OCR é uma melhoria significativa em usabilidade — além de reduzir o tamanho do arquivo quando a resolução de imagem pode ser reduzida.