PDF OCR Texterkennung kostenlos – Scans durchsuchbar machen
Eingescannte PDFs sind stumme Bilder – Text kann nicht markiert, durchsucht oder kopiert werden. WikiPlus OCR (Optical Character Recognition) erkennt automatisch Texte in Scan-PDFs und macht sie vollständig durchsuchbar. Der Prozess läuft lokal im Browser – kein Upload, keine Kosten.
Was ist OCR und wie funktioniert es?
OCR steht für Optical Character Recognition – optische Zeichenerkennung. Die Technologie analysiert Bilder und identifiziert darin Buchstaben, Wörter und Texte. Das Ergebnis ist maschinenlesbarer Text, der durchsucht, kopiert und bearbeitet werden kann. Moderne OCR-Algorithmen nutzen Deep Learning: Neuronale Netze wurden auf Millionen von Buchstabenbildern trainiert und können Zeichen mit sehr hoher Genauigkeit erkennen – auch bei verschiedenen Schriftarten, Größen und leichten Verzerrungen. WikiPlus nutzt Tesseract OCR, eine Open-Source-Engine, die ursprünglich von HP entwickelt und von Google weiterentwickelt wurde. Tesseract gilt als eine der genauesten kostenlosen OCR-Engines und unterstützt über 100 Sprachen, darunter Deutsch mit allen Umlauten und ß.
OCR-Erkennungsqualität optimieren
Die OCR-Genauigkeit hängt stark von der Qualität der Eingabe ab. Optimale Bedingungen für beste Ergebnisse: Scan-Auflösung mindestens 300 DPI (ideal für OCR). Guter Kontrast zwischen Text und Hintergrund. Gerader Scan ohne Schrägstellung. Klare Schriftart ohne zu viel Verschnörkelung. Problematische Bedingungen, die die Genauigkeit reduzieren: Unscharfe oder niedrig aufgelöste Scans. Vergilbtes Papier oder schlechter Kontrast. Handschriften (OCR ist für Drucktext optimiert, Handschrift ist schwieriger). Mehrsprachiger Text in einem Dokument. Vor der OCR kann eine Bildoptimierung helfen: Erhöhe den Kontrast, richte schiefe Scans gerade aus (WikiPlus PDF-Rotate) und reduziere Rauschen. Eine gute Vorbereitung kann die OCR-Genauigkeit erheblich verbessern.
Deutsche Sprache: OCR-Besonderheiten
Für deutsche Texte gibt es OCR-spezifische Besonderheiten. Umlaute (ä, ö, ü, Ä, Ö, Ü) und ß müssen korrekt erkannt werden. Tesseract mit dem deutschen Sprachmodell ist darauf spezialisiert und erkennt diese Zeichen zuverlässig. Häufige OCR-Fehler bei deutschem Text: Das große ß (ẞ) wird manchmal als 'SS' oder 'Ss' erkannt. Umlaute können in schlecht aufgelösten Scans als ähnlich aussehende Zeichen fehlererkannt werden. Deutsche Texte haben außerdem häufige Komposita (Zusammensetzungen wie 'Fahrzeugsicherheitstechnologie'), die von der OCR als einzelne Wörter korrekt erkannt werden müssen. Tesseract's deutsches Sprachmodell hat ausreichende Trainingsdaten für solche Komposita. Nach der OCR empfiehlt sich immer eine Qualitätsprüfung des extrahierten Texts, besonders bei wichtigen Dokumenten.
Ergebnisse der OCR: Durchsuchbares PDF oder reiner Text
WikiPlus OCR kann zwei Arten von Ergebnissen erzeugen. Durchsuchbares PDF: Das Scan-Bild bleibt sichtbar, aber ein unsichtbarer Textlayer wird über dem Bild hinzugefügt. Das PDF sieht genauso aus wie zuvor, aber Text kann jetzt markiert, kopiert und durchsucht werden. Ideal für Archivierung. Reiner Text (TXT): Der erkannte Text wird ohne das ursprüngliche Bild exportiert. Kleiner als das PDF, aber ohne visuelle Darstellung. Ideal für Weiterverarbeitung in Texttools oder Datenbanken. Für die meisten Anwendungen ist das durchsuchbare PDF die beste Option: Es behält das originale Erscheinungsbild des Scans und fügt die Durchsuchbarkeit hinzu. Für Archivierungssysteme, die nach Text suchen müssen, ist das durchsuchbare PDF das Standardformat.