WikiPlus

Rendre un PDF accessible et cherchable grâce à l'OCR : pourquoi c'est essentiel

L'accessibilité numérique est devenue une obligation légale pour de nombreuses organisations en France (loi RGAA) et en Europe (directive 2016/2102). Un PDF scanné — collection d'images sans texte numérique — est radicalement inaccessible : les lecteurs d'écran utilisés par les personnes malvoyantes ne voient que des images, les moteurs de recherche ne peuvent pas l'indexer, et la recherche Ctrl+F ne fonctionne pas. L'OCR est la solution technique qui transforme ces documents aveugles en PDF accessibles. Cet article explique les enjeux et le processus.

Pourquoi les PDF scannés sont problématiques pour l'accessibilité

Un PDF scanné est structurellement identique à un fichier image : chaque page est une photographie du document papier, sans aucune information textuelle numérique. Les conséquences sont multiples. Pour les utilisateurs de lecteurs d'écran (NVDA, JAWS, VoiceOver) qui permettent aux personnes malvoyantes de naviguer dans les documents, un PDF image est totalement muet — le lecteur d'écran ne trouve aucun texte à lire. Pour les moteurs de recherche (Google, Bing) qui indexent les contenus, le PDF scanné est invisible : son contenu ne sera jamais référencé. Pour les collaborateurs qui cherchent un document dans une base documentaire, un PDF sans texte ne remontera jamais dans les résultats d'une recherche interne. Pour la conformité RGAA (Référentiel Général d'Amélioration de l'Accessibilité), les organismes publics et les entreprises de plus de 250 salariés doivent publier des documents numériques accessibles — un scan sans OCR ne l'est pas.

L'OCR comme première étape vers l'accessibilité

L'OCR avec Tesseract.js (Tesseract Wikpius) ajoute une couche textuelle au PDF scanné. Cette couche invisible superposée à l'image permet aux technologies d'assistance de lire le contenu. Le processus crée un PDF « sandwich » : l'image originale reste la couche visuelle, le texte OCR forme une couche cachée derrière. Les lecteurs d'écran lisent cette couche textuelle. Les moteurs de recherche l'indexent. La fonction Ctrl+F fonctionne. C'est la définition minimale d'un PDF cherchable (ou PDF/searchable). Cependant, l'OCR seul ne suffit pas pour une accessibilité RGAA complète — il faut aussi des balises de structure (titres hiérarchiques H1-H6, listes, tableaux balisés) et un texte alternatif pour les images non-textales. Ces éléments font partie du standard PDF/UA (Universal Accessibility, ISO 14289). La transition d'un scan vers un PDF pleinement accessible nécessite donc l'OCR + une correction éditoriale + un balisage structural, que ce soit avec Acrobat Pro ou des outils spécialisés comme Axes PDF.

Impact SEO : les PDF cherchables sont indexés par Google

Google indexe le contenu des PDF lorsqu'ils sont liés depuis des pages web, mais uniquement si le texte est numérique — soit parce que le PDF est généré numériquement (depuis Word, InDesign), soit parce qu'il a été traité par OCR. Un PDF scanné sans OCR publié sur votre site apparaît dans les résultats de recherche par son titre de fichier ou ses métadonnées, mais son contenu n'est pas indexé. Après OCR, le contenu textuel devient indexable. Cela est particulièrement important pour les organisations qui publient des rapports officiels, des publications de recherche, des appels d'offres ou des archives historiques sur leur site web. Un rapport annuel de 80 pages, une fois traité par OCR, peut potentiellement générer du trafic organique sur des centaines de requêtes pertinentes. Google Search Console peut confirmer si vos PDF sont correctement indexés — vérifiez l'onglet Couverture pour les URL de fichiers PDF de votre site.

Conformité légale et bonnes pratiques pour les organisations

En France, plusieurs obligations légales poussent les organisations à l'accessibilité documentaire. La loi du 11 février 2005 sur l'égalité des droits des personnes handicapées s'applique aux services numériques publics et privés accessibles au public. Le RGAA (version 4.1) impose des critères précis pour les documents PDF publiés sur les sites web des organismes assujettis. L'article 47 de la loi pour une République Numérique (2016) étend ces obligations. Pour les entreprises privées, la loi Égalité et Citoyenneté et les conventions collectives sectorielles peuvent imposer des exigences similaires. Bonnes pratiques recommandées : adoptez une politique de zéro-PDF-scanné-sans-OCR pour tous les nouveaux documents publiés. Pour les archives existantes, priorisez les documents les plus consultés ou les plus récents. Documentez votre démarche dans votre Déclaration d'Accessibilité (obligatoire pour les organismes publics). L'outil OCR PDF WikiPlus est une solution pratique pour les traitements ponctuels — pour des volumes importants, envisagez un workflow automatisé intégré à votre système documentaire.

Questions fréquemment posées