WikiPlus

Compresser des PDF scannés pour l'archivage numérique sans perte de lisibilité

Les PDFs scannés sont parmi les fichiers les plus volumineux : chaque page est une image haute résolution, et un document de 50 pages peut facilement dépasser 100 Mo. Pour les projets d'archivage numérique — numérisation d'archives papier, dossiers clients, archives comptables — la taille des fichiers a un impact direct sur les coûts de stockage et la facilité de partage. La compression de ces PDFs scannés est essentielle, mais doit être calibrée pour préserver la lisibilité des textes même après réduction. Ce guide explique comment trouver le bon équilibre.

Spécificités de la compression des PDFs scannés

Les PDFs scannés diffèrent fondamentalement des PDFs créés numériquement. Chaque page est une image bitmap (généralement TIFF ou JPEG non compressé), souvent numérisée à 300-600 DPI pour garantir la lisibilité. Cette haute résolution est nécessaire lors de la numérisation initiale — mais elle dépasse largement ce dont vous avez besoin pour la conservation et la consultation courante. La compression d'un PDF scanné revient principalement à recompresser ces images de page. La clé est de trouver la résolution minimale qui préserve la lisibilité de tout le texte du document. Pour du texte standard corps 10-12 pt sur fond blanc, 150 DPI est généralement suffisant pour une lisibilité parfaite à l'écran et une impression A4 acceptable. Pour du texte très petit (7-8 pt, notes de bas de page, tableaux denses), 200-250 DPI est préférable. Un scan d'archive à 300 DPI compressé à 150 DPI divise typiquement la taille par 3-4, ce qui correspond au niveau Moyen de l'outil WikiPlus.

Compression vs OCR pour les archives scannées

Pour les archives scannées, vous avez deux approches complémentaires qui ne s'excluent pas. Approche 1 — Compression seule (Compresser PDF) : réduit la taille en recompressant les images de page. Simple et rapide. Les documents restent des images — non cherchables, non sélectionnables. Idéal pour les archives où la recherche textuelle n'est pas nécessaire (archives photographiques, plans techniques, documents visuels). Approche 2 — OCR puis compression (OCR PDF → Compresser PDF) : d'abord, l'OCR ajoute une couche de texte cherchable au PDF (outil OCR PDF de WikiPlus). Ensuite, la compression réduit la taille du fichier résultant. Le PDF final est à la fois cherchable (texte indexable) et léger. C'est l'approche recommandée pour les archives textuelles (courriers, contrats, rapports). Attention : l'OCR augmente légèrement la taille du fichier (ajout de la couche texte). La compression post-OCR compense cet ajout. En général, un PDF scanné traité par OCR puis compressé en Moyen est plus petit que le scan original tout en étant cherchable — le meilleur des deux mondes.

Politiques de stockage et compression adaptée

Pour un projet d'archivage numérique d'entreprise, définissez une politique cohérente de compression selon les types de documents. Documents légaux (contrats, actes, correspondance officielle) : compression Faible pour préserver les détails (signatures, tampons, cachets officiels), voire pas de compression pour les originaux numériques légaux. Conservez aussi le scan original non compressé comme référence. Comptabilité (factures, relevés, tickets) : compression Moyen. Les montants et numéros de TVA doivent rester parfaitement lisibles — vérifiez toujours après compression. Correspondance courante (emails imprimés, lettres) : compression Moyen à Élevé. Le texte dactylographié résiste bien à la compression même agressive. Archives RH (bulletins de paie, contrats de travail) : compression Faible. Ces documents peuvent être requis par l'inspection du travail — la lisibilité parfaite est indispensable. Documents techniques (plans, schémas, notices) : compression Faible voire pas de compression — les détails fins (cotes, symboles, numéros de référence) peuvent devenir illisibles avec une compression agressive. Conseils pratiques : créez deux versions — un original non compressé en archive froide (accès rare, coût de stockage accepté) et une version Moyen en archive chaude (accès fréquent, stockage optimisé).

Coûts de stockage et retour sur investissement de la compression

La compression PDF a un impact financier direct pour les organisations avec de grands volumes d'archives. Prenons un exemple concret. Une entreprise numérise 10 ans d'archives : 50 000 documents, moyenne 500 Ko par page, moyenne 5 pages par document = 125 Go de scans à 300 DPI. Avec compression Moyen (réduction 60 %) : 50 Go en archive. Sur Amazon S3 Standard (0,023 $/Go/mois) : économie de 75 Go × 0,023 $ = 1,73 $/mois, soit 21 $/an. Sur Azure Blob Storage Cool Tier (archivage, 0,01 $/Go/mois) : économie d'environ 0,75 $/mois. Ces économies paraissent modestes, mais s'accumulent sur 10-20 ans et avec des volumes plus importants (hôpitaux, administrations, cabinets juridiques gérant des millions de documents). Au-delà du stockage : la compression améliore les temps de transfert lors de la consultation des documents (archiviste qui ouvre un dossier, workflow de validation), réduit les coûts de sauvegarde (backup d'archives compressées), et facilite la migration vers de nouveaux systèmes de stockage.

Questions fréquemment posées