Como Extrair Texto de PDF Escaneado (Com e Sem OCR)
Um PDF criado digitalmente tem texto real embutido. Um PDF escaneado de um documento físico é basicamente uma fotografia — o computador não 'sabe' que há texto, só vê pixels. Para extrair texto de um PDF escaneado, é necessário o OCR (Optical Character Recognition), que analisa a imagem e reconhece os caracteres. Este artigo explica a diferença entre os dois tipos de PDF, como o OCR funciona, e como extrair texto de documentos escaneados de forma eficaz.
A confusão entre os dois tipos de PDF é muito comum, e entender a diferença é essencial para saber qual ferramenta usar. PDF de texto nativo: criado por um software de computador — Word, Excel, LaTeX, InDesign, software de contabilidade. O arquivo contém objetos de texto que descrevem cada caractere com sua posição, fonte e tamanho. Você pode selecionar e copiar texto com o mouse no Acrobat Reader. A extração de texto é direta e precisa. PDF escaneado: criado fotografando ou digitalizando um documento físico. O arquivo é uma coleção de imagens JPEG, TIFF ou PNG. Não há texto — apenas pixels. Quando você abre no Acrobat Reader, você vê o que parece texto mas não pode selecioná-lo (ou seleciona a página inteira como imagem). Teste simples para identificar: tente selecionar uma palavra no PDF com o cursor. Se você consegue selecionar a palavra específica, é PDF de texto. Se o cursor seleciona a página inteira ou não seleciona nada, é PDF escaneado. Alguns PDFs são mistos: documentos que foram escaneados e depois tiveram OCR aplicado têm uma camada de imagem (o escaneamento) com uma camada de texto invisível por cima (resultado do OCR). Parecem escaneados visualmente mas têm texto selecionável.
OCR (Optical Character Recognition ou Reconhecimento Óptico de Caracteres) é a tecnologia que converte imagens de texto em texto editável. O processo básico do OCR: análise da imagem para identificar regiões de texto vs imagem vs espaço em branco; segmentação das regiões de texto em linhas, palavras e caracteres; reconhecimento de cada caractere comparando com padrões conhecidos usando algoritmos de IA/machine learning; formação de palavras e frases a partir dos caracteres reconhecidos. Precisão do OCR: depende muito da qualidade da imagem original. Documentos impressos em fonte clara com bom contraste em papel branco: 98-99% de precisão. Documentos manuscritos, fontes incomuns, qualidade de impressão baixa ou papel amarelado: precisão cai significativamente. Motores de OCR modernos usam deep learning e têm melhorado dramaticamente. Tesseract (open-source), Google Document AI, Amazon Textract e Azure Document Intelligence são os líderes. O WikiPlus usa Tesseract para OCR no navegador via WebAssembly. Para documentos em português, o OCR moderno tem excelente suporte, incluindo reconhecimento de acentos (ã, ç, é, etc.). Documentos anteriores a meados do século XX com ortografia antiga ainda podem apresentar desafios.
A qualidade do texto extraído via OCR depende muito da qualidade da imagem de entrada. Algumas práticas melhoram significativamente os resultados. Qualidade do escaneamento: escaneie em 300 DPI ou mais para documentos que serão processados por OCR. A resolução 300 DPI fornece detalhes suficientes para reconhecer caracteres com clareza. Contraste e iluminação: documentos com bom contraste entre texto e fundo (texto preto em papel branco) têm melhores resultados. Fotografias de documentos com iluminação irregular ou sombras reduzem a precisão. Orientação correta: documentos inclinados ou de cabeça para baixo dificultam o OCR. Certifique-se que o documento está alinhado horizontalmente antes de escanear ou fotografar. Pré-processamento: alguns softwares de OCR e ferramentas de imagem oferecem pré-processamento automático — correção de inclinação (deskew), melhoria de contraste, remoção de manchas. Isso pode melhorar resultados em documentos de qualidade marginal. Fontes e scripts: OCR para texto impresso em português com fontes comuns funciona muito bem. Documentos com caligrafia, fontes decorativas especiais, ou script árabe/chinês/japonês têm precisão muito variável. Verificação manual: o resultado do OCR deve sempre ser revisado para documentos importantes. Erros comuns incluem: 0 vs O, 1 vs l, ç sem cedilha, caracteres especiais mal reconhecidos.
Documentos históricos apresentam desafios específicos para OCR que merecem atenção especial. Ortografia histórica: documentos brasileiros anteriores à Reforma Ortográfica de 1943 usavam ortografia diferente. OCR moderno reconhece os caracteres corretamente, mas o resultado pode parecer com erros de grafia — são variações históricas, não erros do OCR. Fontes tipográficas antigas: tipografia do século XIX e início do XX usava fontes com características diferentes das fontes modernas. Isso pode afetar a precisão do reconhecimento, especialmente para caracteres menos comuns. Manuscritos: a caligrafia varia enormemente entre escritores. OCR para manuscritos tem precisão muito menor que para texto impresso. Ferramentas especializadas como HTR (Handwritten Text Recognition) são mais adequadas mas menos acessíveis. Papel deteriorado: documentos antigos com papel amarelado, manchas de umidade ou foxing (manchas de oxidação) dificultam o OCR porque o contraste entre texto e fundo é reduzido. Soluções alternativas: para documentos históricos muito valiosos onde a precisão é crítica, existem serviços especializados de transcrição manual. Projetos de crowdsourcing como Transkribus também ajudam a transcrever documentos históricos com assistência humana combinada com IA. Para documentos históricos de valor moderado, OCR com revisão manual é o equilíbrio prático entre precisão e eficiência.