OCR-Qualität verbessern – Tipps für bessere Texterkennung
OCR-Texterkennung ist nur so gut wie die Eingabe. Mit den richtigen Vorbereitungsschritten lässt sich die Erkennungsgenauigkeit erheblich verbessern. Diese Tipps helfen, das Maximum aus der WikiPlus OCR-Engine herauszuholen.
Scan-Vorbereitung für optimale OCR-Ergebnisse
Die wichtigste Vorbereitung ist die richtige Scan-Einstellung. Auflösung: 300 DPI ist der Sweet Spot für OCR. Bei 150 DPI werden kleine Zeichen unscharf und fehlererkannt. Bei 600 DPI verbessert sich die Qualität kaum, die Dateigröße steigt aber stark an. Helligkeit und Kontrast: Stelle den Scanner so ein, dass Text schwarz und Hintergrund weiß ist. Vermeide überbelichtete Scans (Text wird grau) oder unterbelichtete (Hintergrund wird grau). Die meisten Scanner haben ein Auto-Kontrastmodus – für Textdokumente ist das in der Regel gut. Ausrichtung: Lege Dokumente gerade auf dem Scanner auf. Selbst eine Schrägstellung von 2-3 Grad kann die OCR-Qualität deutlich verschlechtern. Falls der Scan schief ist, nutze WikiPlus PDF-Rotate, um ihn zu korrigieren.
Bildvorbearbeitung vor der OCR
Bilder können vor der OCR vorbearbeitet werden, um die Erkennungsqualität zu verbessern. Kontrast erhöhen: Bei vergilbtem oder blassem Papier erhöhe den Kontrast digital. Tools wie GIMP (kostenlos) oder Photoshop können das effektiv. Binarisierung: Die Umwandlung von Graustufen- oder Farbbildern in reine Schwarzweiß-Bilder (Binarisierung) kann die OCR-Qualität verbessern. Es entfernt Hintergrundfarben und verbessert den Kontrast. Rauschunterdrückung: Alte Dokumente haben oft Papiertextur und Druckpunkte, die als 'Rauschen' in Scans erscheinen. Leichte Rauschunterdrückung kann die OCR-Qualität verbessern – aber zu starke Filterung kann Buchstaben beschädigen. Ausschnitt: Wenn der Scan breite weiße Ränder hat oder andere Objekte enthält (Schreibtischoberfläche, Finger), schneide das auf den eigentlichen Dokumentenbereich aus.
Sprachauswahl und spezifische Texterkennung
Die Wahl der richtigen OCR-Sprache ist entscheidend. Jedes Sprachmodell in Tesseract wurde für spezifische Zeichensätze und Wortwahrscheinlichkeiten trainiert. Für deutsche Texte ist das Deutsche Sprachmodell notwendig. Bei zweisprachigen Dokumenten (z.B. deutsch-englisch) kann die gleichzeitige Auswahl beider Sprachen die Genauigkeit verbessern. Tesseract kann mehrere Sprachmodelle kombinieren. Für Dokumente mit Zahlen, Codes oder anderen Non-Standard-Inhalten: Manchmal ist ein Zahlen-optimiertes Profil besser als ein Sprach-Profil. Für Rechnungen mit vielen Zahlenkolonnen kann ein spezialisiertes Modell die Zahl-Erkennung verbessern.
Nachbearbeitung von OCR-Texten
Auch nach sorgfältiger Vorbereitung können OCR-Fehler auftreten. Eine strukturierte Nachbearbeitung reduziert Fehler. Häufige OCR-Fehler in deutschen Texten: '0' und 'O' (Null und Buchstabe O) werden verwechselt. 'l', '1' und 'I' sind schwer zu unterscheiden. 'rn' wird oft als 'm' erkannt. 'ß' kann als 'ss' oder 'B' erkannt werden. Nutze die Suchen-und-Ersetzen-Funktion in einem Texteditor für systematische Korrekturen: Suche nach häufigen Fehlermustern und korrigiere sie. Spell-Check kann OCR-Fehler markieren, aber Fachwörter und Namen werden oft als Fehler markiert, obwohl sie korrekt sind. Für kritische Dokumente (rechtliche Unterlagen, Finanzdokumente): Manuelle Überprüfung ist unerlässlich. OCR-Fehler in solchen Dokumenten können schwerwiegende Konsequenzen haben. Eine Qualitätskontrolle durch menschliche Überprüfung ist für wichtige Archivdokumente Standard.