Qu'est-ce que OCR PDF — PDF scanné en texte ?
OCR PDF lit le texte contenu dans des PDF uniquement composés d'images — scans, pages photographiées, documents faxés ou exports image — pour que tu puisses copier, rechercher et modifier les mots au lieu de simplement les regarder. Tesseract.js s'exécute intégralement dans le navigateur et gère neuf langues dont l'anglais, l'espagnol, l'allemand, le français, le polonais et le portugais. Les avocats extraient des clauses de contrats scannés pour les citer dans un mémoire. Les chercheurs débloquent des citations issues de livres numérisés que les bibliothèques publient uniquement sous forme d'images de pages. Les comptables copient les chiffres de factures et de relevés bancaires scannés vers un tableur sans les ressaisir. Les candidats à l'immigration convertissent des actes de naissance scannés en texte saisissable pour une demande de visa. Le PDF ne quitte jamais ton appareil : les pages sont rendues localement en bitmaps et envoyées directement au moteur OCR. La précision de reconnaissance dépend de la qualité du scan — une page contrastée à 300 DPI atteint 97 à 99 % pour les écritures latines, alors que des photos floues prises au téléphone de papier froissé se situent plutôt vers 85 %.
Quand dois-je utiliser cet outil ?
- Extraire le texte de contrats juridiques scannés, d'affidavits et de dépôts judiciaires pour un copier-coller dans un mémoire.
- Numériser des pages de livres imprimés ou des scans d'archives pour les rechercher, surligner des citations et citer des passages.
- Récupérer les numéros de facture, dates et totaux depuis des PDF scannés livrés sans couche de texte.
- Déverrouiller d'anciens articles académiques ou formulaires administratifs distribués en PDF uniquement image pour analyse.
Comment exécuter l'OCR sur un PDF en ligne ?
- 1Dépose un PDF scanné dans la zone de téléversement ou clique pour parcourir tes fichiers.
- 2Choisis la langue correspondant au document dans la liste déroulante.
- 3Clique sur Extraire le texte — le navigateur charge le moteur OCR et démarre la reconnaissance.
- 4Observe la barre de progression pendant que chaque page est rendue et lue.
- 5Copie le texte reconnu dans le presse-papiers ou télécharge-le en tant que fichier .txt brut.
Questions fréquemment posées
Le PDF est-il envoyé vers un serveur pour l'OCR ?
No — the complete OCR pipeline runs inside your browser tab without transmitting a single byte to any remote server. The tool uses two WebAssembly libraries that execute locally: MuPDF, an open-source PDF engine compiled to WebAssembly, rasterises each page of the PDF into a bitmap image entirely within the browser's sandboxed memory. Tesseract.js, a WebAssembly port of the widely used Tesseract OCR engine, then receives those bitmap images and performs character recognition against its trained language model, also in the same browser sandbox. The recognised text is written into the browser's DOM and offered as a plain-text download — all without leaving your device. You can verify this concretely by opening your browser's DevTools Network panel before dropping the PDF: during the entire OCR job, the only outbound requests you will observe are the one-time downloads of the Tesseract engine (~3 MB), the MuPDF library, and the language training data file for whichever language you selected. After those assets are fetched and cached in the browser's storage, the Network tab shows complete silence for the remainder of the job, including all page rendering, all OCR recognition, and the final text output. This architecture matters for sensitive document types. Scanned contracts awaiting signature, medical examination reports, passports and identity documents, immigration paperwork, and internal corporate filings all contain information that most organisations and individuals have strong reasons not to transmit to third-party servers. Because every computation happens inside your browser, WikiPlus receives no copy of your document, no copy of the recognised text, and no metadata about the file you processed.
Quelles langues l'OCR prend-il en charge et quelle est sa précision ?
L'outil est livré avec neuf langues prêtes à l'emploi : anglais, espagnol, allemand, français, italien, néerlandais, polonais, portugais et russe. Elles couvrent la plupart des écritures latines et cyrilliques. La précision dépend de trois éléments : la qualité du scan, la police et la mise en page. Un scan propre à 300 DPI en noir sur blanc d'une page de livre standard atteint 97 à 99 % de précision caractère par caractère sur les écritures latines. Les photos de téléphone de papier froissé, les captures à faible luminosité, les soulignements marqués ou les surlignages font chuter la précision dans la plage 85 à 93 %. L'écriture manuscrite n'est pas reconnue de façon fiable — le moteur est entraîné sur du texte imprimé. Les mises en page multi-colonnes sont lues colonne par colonne et l'outil les joint en un flux de texte unique. Les tableaux sont conservés sous forme de valeurs séparées par des espaces, mais les tableaux imbriqués complexes perdent leur structure. Si ton document est dans une langue non listée, la solution de contournement la plus fiable est d'essayer l'anglais — le modèle anglais de Tesseract capte souvent les cognats et noms propres des langues européennes voisines avec une qualité acceptable.
Combien de temps prend l'OCR et le nombre de pages a-t-il une importance ?
La première page d'une nouvelle session est toujours la plus lente, car le navigateur doit télécharger le moteur Tesseract (~3 Mo) et les données d'entraînement de la langue (10 à 50 Mo selon la langue). Ce téléchargement unique prend généralement 10 à 30 secondes sur une connexion haut débit domestique, puis les données linguistiques sont mises en cache dans l'IndexedDB de ton navigateur, si bien que chaque travail OCR ultérieur dans la même langue démarre en moins d'une seconde. La reconnaissance elle-même tourne autour de 2 à 5 secondes par page sur un ordinateur portable moderne pour une page de livre A4 standard. Un PDF de 10 pages se termine en environ 30 à 45 secondes, préchauffage inclus. Un scan de 100 pages peut prendre 4 à 8 minutes. Le nombre de pages évolue à peu près linéairement. Les appareils mobiles sont 2 à 3 fois plus lents, donc les longs documents sont à traiter de préférence sur un portable. Le navigateur ne se fige pas pendant l'OCR ; l'outil utilise un Web Worker pour que la page principale reste réactive et que tu puisses changer d'onglet pendant le traitement.
Que faire si le texte reconnu est illisible ou erroné ?
Un résultat illisible pointe habituellement vers l'une de trois causes. Première cause, la mauvaise langue sélectionnée — Tesseract confond des paires de lettres similaires entre langues, et un scan allemand passé dans un modèle anglais produira des absurdités pour les mots avec umlauts. Vérifie la liste déroulante de langue et relance. Deuxième cause, le scan lui-même est de faible qualité : en-dessous de 200 DPI, avec des artefacts JPEG fortement compressés ou photographié sous un angle prononcé. Re-scanner à 300 DPI en noir et blanc corrige la plupart de ces cas. Troisième cause, le PDF n'est en fait pas basé sur des images — il possède déjà une couche de texte et l'OCR fait un travail inutile pendant que ton vrai texte se trouve en dessous. Dans ce cas, utilise plutôt l'outil PDF vers Texte ; il extrait le texte intégré directement et il est à la fois plus rapide et précis à 100 %. Pour les livres en vieilles polices ou très ornementés, les modèles OCR standards peinent ; des services commerciaux avec des modèles spécialisés pour textes historiques (comme Transkribus) sont mieux adaptés.
Le contenu de cette page est disponible sous CC BY 4.0.