Scan-PDF durchsuchbar machen – Anleitung für die Archivierung
Digitales Archivieren von Papierdokumenten endet oft bei einem Ordner voller Scan-PDFs, die nicht durchsuchbar sind. Mit WikiPlus OCR werden Scans zu vollständig durchsuchbaren Dokumenten – ein entscheidender Schritt für professionelle digitale Archivierung.
Von Papierstapel zu digitalem Archiv: Der vollständige Workflow
Ein professioneller Archivierungsworkflow für Papierdokumente besteht aus mehreren Schritten. Schritt 1: Scannen. Nutze einen Flachbettscanner oder einen Dokumentenscanner für beste Qualität. Einstellungen: 300 DPI, schwarzweiß für reine Textdokumente (spart Speicher), Graustufen oder Farbe für Dokumente mit Bildern. Schritt 2: OCR mit WikiPlus. Lade den Scan in WikiPlus PDF-OCR. Wähle Deutsch als Sprache. Starte die Texterkennung. Lade das durchsuchbare PDF herunter. Schritt 3: Benennen und Organisieren. Benenne die Dateien systematisch: JJJJ-MM-TT_Beschreibung.pdf (z.B. 2026-05-12_Steuerbescheid2025.pdf). Das Datum im Dateinamen ermöglicht chronologische Sortierung. Schritt 4: Backup. Speichere auf mindestens zwei verschiedenen Speichermedien (lokale Festplatte + Cloud oder externes Laufwerk).
Optimale Scanner-Einstellungen für OCR
Die Scanner-Einstellungen haben direkten Einfluss auf die OCR-Qualität. Auflösung: 300 DPI ist der optimale Wert für OCR. 150 DPI ist zu niedrig (Unschärfe bei kleinem Text). 600 DPI liefert keine wesentliche OCR-Verbesserung, verdreifacht aber die Dateigröße. Farbmodus: Schwarzweiß (1-Bit) ist ideal für reine Textdokumente – kleinste Dateien, hoher Kontrast. Graustufen für Dokumente mit Halbtonbildern. Farbe nur wenn farbige Elemente für das Dokument wichtig sind. Dateiformat: Scanne direkt als PDF oder als TIFF (verlustfrei). JPEG-Komprimierung beim Scannen kann OCR-Qualität durch Artefakte verschlechtern. Viele Scanner bieten ein 'Durchsuchbares PDF'-Profil mit integrierter OCR – das ist oft eine einfache Alternative zu nachgelagerter OCR.
Qualitätsprüfung nach der OCR
Nach der OCR sollte die Erkennungsqualität stichprobenartig geprüft werden. Öffne das durchsuchbare PDF und nutze Strg+F zur Suche nach einem bekannten Wort aus dem Dokument. Wenn die Suche es findet und korrekt markiert, ist die OCR erfolgreich. Prüfe kritische Informationen manuell: Zahlen, Namen, Datumsangaben. Diese sind besonders fehleranfällig und besonders wichtig für Archivierungszwecke. Ein erkanntes '8' statt '3' in einem Finanzdokument kann erhebliche Konsequenzen haben. Für professionelle Archivierung: Führe ein Archivprotokoll. Notiere für jedes Dokument: Originaldatum, Scan-Datum, OCR-Qualitätsbewertung (gut/mittel/schlecht), und ob manuelle Nachkorrektur notwendig war.
Rechtliche Anforderungen an digitale Archivierung
Für Unternehmen und Freiberufler gibt es gesetzliche Anforderungen an die digitale Archivierung. Die GoBD (Grundsätze zur ordnungsmäßigen Führung und Aufbewahrung von Büchern, Aufzeichnungen und Unterlagen) regeln in Deutschland die digitale Buchführung. Wichtige GoBD-Anforderungen: Dokumente müssen vollständig, richtig, zeitgerecht und geordnet gespeichert werden. Sie müssen während der Aufbewahrungsfrist (6-10 Jahre je nach Dokumenttyp) jederzeit lesbar sein. Änderungen müssen nachvollziehbar sein (Unveränderlichkeit). OCR-Dokumente erfüllen diese Anforderungen, wenn sie korrekt implementiert werden. Das durchsuchbare PDF bleibt als unveränderliches Archivdokument erhalten. Wenn Korrekturen notwendig sind, werden sie als separate Korrekturnotizen dokumentiert, nicht im Originaldokument.