OCR PDF : convertir un PDF scanné en texte sélectionnable gratuitement
Un PDF scanné est fondamentalement une collection d'images — les mots qu'il contient ne sont que des pixels, impossibles à sélectionner, copier ou rechercher. La Reconnaissance Optique de Caractères (OCR) transforme ces images en texte structuré et interrogeable. L'outil OCR PDF de WikiPlus exploite Tesseract.js, le moteur OCR open-source de Google compilé en WebAssembly pour fonctionner entièrement dans votre navigateur. Résultat : vos documents scannés deviennent des PDF cherchables ou des fichiers texte éditables, sans aucune donnée transmise à un serveur, en quelques dizaines de secondes selon la taille du fichier.
Comment fonctionne l'OCR dans le navigateur avec Tesseract.js
Tesseract.js est la version JavaScript de Tesseract, le moteur OCR open-source développé à l'origine par HP puis maintenu par Google depuis 2006. Compilé en WebAssembly, il s'exécute directement dans le navigateur avec des performances proches du code natif. Le processus OCR se déroule en plusieurs étapes. D'abord, le PDF est rendu page par page en bitmap haute résolution (300 DPI) par MuPDF. Ensuite, Tesseract analyse chaque image : il détecte les zones de texte (segmentation de page), identifie les lignes, puis les mots et enfin les caractères via son réseau de neurones LSTM. Le résultat est un texte structuré avec coordonnées pour chaque mot. Selon le mode de sortie choisi, WikiPlus génère soit un PDF avec couche texte superposée (PDF cherchable), soit un fichier .txt avec le texte brut extrait. La précision dépend de la qualité du scan : un document net en 300 DPI atteint généralement 95-99 % de précision sur du texte dactylographié.
Quelles langues l'OCR PDF supporte-t-il ?
L'outil OCR PDF WikiPlus supporte 9 langues : français, anglais, espagnol, allemand, portugais, polonais, italien, néerlandais et chinois simplifié. Pour chaque langue, Tesseract utilise un modèle entraîné sur des corpus textuels spécifiques — ce qui améliore significativement la précision sur les caractères accentués (é, è, ê, ç, à en français) et les ligatures typographiques. Sélectionnez la langue du document avant de lancer l'OCR : une mauvaise sélection de langue dégradera la précision, car le moteur essaiera d'interpréter les caractères selon des règles linguistiques inadaptées. Pour les documents bilingues (un rapport en français avec des sections en anglais), choisissez la langue dominante. Tesseract supporte techniquement le mode multilingue, mais cette option avancée n'est pas exposée dans l'interface WikiPlus pour garder l'outil simple. Pour les textes manuscrits, la précision est nettement plus faible (50-70 %) — l'OCR est conçu pour le texte dactylographié ou imprimé.
PDF cherchable vs texte brut : quel format choisir ?
L'outil OCR PDF propose deux modes de sortie avec des usages distincts. Le PDF cherchable (PDF/A avec couche texte) conserve l'apparence visuelle du document original tout en ajoutant une couche de texte invisible superposée. Ce format est idéal pour les archives : le document reste visuellement identique à l'original (mise en page, images, tableaux préservés), mais le texte peut être sélectionné, copié et indexé par les moteurs de recherche. Les systèmes de Gestion Électronique de Documents (GED) et les moteurs de recherche d'entreprise (Elasticsearch, Solr) reconnaissent ce format. Le texte brut (.txt) est préférable quand vous souhaitez traiter le contenu textuel : alimentation d'une base de données, analyse sémantique, traduction automatique, injection dans un LLM (ChatGPT, Claude). Il est plus léger et directement exploitable par des scripts Python ou des outils de traitement de texte. Pour la plupart des usages bureautiques, le PDF cherchable est le choix par défaut.
Améliorer la précision de l'OCR : conseils pratiques
La qualité du scan est le facteur le plus important pour la précision OCR. Voici les paramètres optimaux à viser. Résolution : 300 DPI minimum pour du texte corps de texte standard (10-12 pt) ; 400-600 DPI pour de petits textes (7-9 pt) ou des documents avec beaucoup de détails. Contraste : le texte noir sur fond blanc avec un contraste élevé donne les meilleurs résultats. Évitez les scans avec ombres, reflets ou fond texturé. Inclinaison : un document scanné de travers (même 2-3°) dégrade la précision. Les scanners modernes incluent une correction automatique de l'inclinaison (deskewing) — activez-la. Format : le TIFF non compressé ou le JPEG haute qualité (>90 %) préservent les détails du texte. Les PDF scannés en JPEG à faible qualité ont des artefacts de compression qui brouillent les contours des lettres. Si votre PDF scanné donne de mauvais résultats, essayez de le passer d'abord dans l'outil Image Enhancer de WikiPlus pour améliorer le contraste avant l'OCR.