As optical character recognition technology improves, companies can digitize documents faster and more accurately than ever. But a capable OCR solution alone is not enough to automate document processing - effective pre- and postprocessing is needed, too. In this article, we'll look at the current state of OCR and how it is now being augmented by machine learning.
Was ist OCR?
Die Digitalisierung von Papierunterlagen kann für Unternehmen enorme Effizienzsteigerungen bedeuten. Einmal konvertiert, lassen sich die Daten softwaregestützt durchsuchen, sortieren und analysieren, um wertvolle Erkenntnisse zu gewinnen. Möglich wird dies durch “Optical Character Recognition”, kurz OCR.
Obwohl die Bezeichnung weithin bekannt ist, wissen nur wenige, welche Prozesse wirklich dahinterstecken. Bevor wir uns mit den technischen Details befassen, sollten wir zwischen den verschiedenen Kategorien maschineller Texterkennung unterscheiden, die unter den Sammelbegriff OCR fallen:
- Optical character recognition (OCR im engeren Sinn): Erkennung von einzelnen gedruckten Zeichen
- Optical word recognition (OWR): Erkennung von ganzen gedruckten Wörtern
- Intelligent character recognition (ICR): Erkennung von einzelnen gedruckten oder handgeschriebenen Zeichen, nutzt Machine Learning
- Intelligent word recognition (IWR): Erkennung von ganzen gedruckten oder handgeschriebenen Wörtern, nutzt Machine Learning
Depending on your use case, you may need different types of software, with or without machine learning capabilities. There’s also the difference between document text und scene text. Scene text consists of letters and words "in the wild", for example, on a street sign. These are generally much harder to process, since things like angle, contrast, and font variations have to be factored in. It's thus best to ask yourself beforehand what texts you will perform data extraction on, so you can choose an appropriate software solution.
Aufbereitung für OCR
Für möglichst gute Ergebnisse sollten die zu verarbeitenden Bilddateien vorbereitet werden, bevor die eigentliche Texterkennung durch die OCR-Software beginnt.
Auch bei Flachbett-Scannern ist das Ergebnis etwa häufig leicht verzerrt. Wird dies korrigiert, fällt es der OCR-Software leichter, die Textzeilen korrekt zu erfassen und somit etwa Wörter besser voneinander zu trennen.
Als nächstes folgt die Binarisierung. Dabei wird ein Dokument in Farbe oder Graustufen auf Schwarz-Weiß reduziert, sodass sich der Text eindeutig vom Hintergrund abhebt. Je nach Qualität des Inputs kommt es vor, dass der Hintergrund nicht vollständig entfernt werden kann. Das führt zu einem körnigen Bild, was die Texterkennung erschwert. Vor der Binarisierung können daher Bildfilter zum Einsatz kommen, die dem entgegenwirken.
Textausgabe und Nachbearbeitung
Nachdem die OCR-Software das gesamte Dokument erfasst hat, gibt sie den enthaltenen Text in digitaler Form wieder aus. Hierfür stehen unterschiedliche Möglichkeiten zur Auswahl. Am einfachsten ist das Erstellen einer reinen Textdatei, in der der Inhalt als ein einziger Textblock ohne Zeilenumbrüche und Formatierung gespeichert wird. Für sehr kurze Texte mag diese Vorgehensweise ausreichen, für größere Dokumente oder komplexe Formulare ist sie aber ungeeignet.
Manche Tools geben eine Word-Datei aus und versuchen dabei die Formatierung des ursprünglichen Dokuments nachzuahmen. Das Ergebnis ist aber selten optimal, besonders wenn die Datei später bearbeitet werden soll.
Eine weitere Möglichkeit ist, den erfassten Text als unsichtbare Ebene über eine PDF-Version der ursprünglichen Bilddatei zu legen. Damit bleibt das Aussehen perfekt erhalten, der Text lässt sich nun aber auch durchsuchen und markieren.
OCR-Texterkennung mit Machine Learning verbessern
Höchste Genauigkeit ist gerade dann wichtig, wenn mittels OCR-Technologie extrahierte Daten automatisch weiterverarbeitet werden sollen, um die manuelle Dateneingabe zu ersetzen. In diesem Fall kann maschinelles Lernen dabei helfen, genauere Ergebnisse zu erzielen.
Wenn Sie beispielsweise Text auf papierbasierten Rechnungen automatisch erfassen möchten, wissen Sie zwar, welche Arten von Informationen diese enthalten, jedoch nicht, wo genau auf dem jeweiligen Dokument sie zu finden sind. Deep-Learning-Modelle können auf Datentypen wie Adressen und Kontonummern trainiert werden, um sie schnell zu erkennen, zu kennzeichnen und für die Weiterverarbeitung automatisch zu extrahieren .
Möchten Sie Text abseits von Dokumenten erfassen, ist die Unterstützung von Machine Learning für die OCR unerlässlich. Nehmen wir an, Sie wollen die Kennzeichen von Fahrzeugen auf Ihrem Unternehmensgelände erfassen: OCR-Texterkennung allein reicht hier nicht aus. Stattdessen benötigen Sie ein auf diese Aufgabe trainiertes Deep-Learning-Modell, welches die Kennzeichen zunächst erkennt und erfasst, die Bilddateien für die Weiterverarbeitung anpasst, die einzelnen Zeichen ausliest und schließlich in einem maschinenlesbaren Format speichert.
Einsatz von OCR zur Optimierung von Arbeitsabläufen
Viele Unternehmen setzen inzwischen zunehmend auf digitales Dokumentenmanagement. Hierfür kann beispielsweise jedes eingehende Papierdokument eingescannt und elektronisch im System abgelegt werden, um den Zugriff für alle zu gewährleisten. Direkt im Anschluss wird das Original archiviert.
Wird auf diese Dokumente zusätzlich OCR angewendet, lassen sie sich nach Stichwörtern wie Firmenname, Datum, Adresse usw. durchsuchen und können so noch Jahre später leicht wiedergefunden werden. Ihre Mitarbeitenden verbringen damit deutlich weniger Zeit damit, nach ihnen zu suchen.
Hat Ihr Unternehmen einen sehr spezifischen Anwendungsfall für die automatische Dokumentenverarbeitung? Sie können sich glücklich schätzen: Je enger Ihre Anforderungen, desto leichter kann man ein Deep-Learning-Modell dafür trainieren. Im ersten Moment mag das einschüchternd klingen, doch die hochwertigen Ergebnisse sind den Aufwand wert.
Scanbot SDK's Dokumentenscanner uses the Tesseract OCR engine to recognize and digitize text while applying different image filters to optimize results. Our Data Capture SDK goes one step further: Leveraging our deep learning model, it can recognize all kinds of document and scene text. We are currently fine-tuning our engine so that it can be successfully trained on a new document type within just three business days.
Wenn Sie glauben, dass diese Technologie für Ihren Anwendungsfall interessant sein könnte, kontaktieren Sie gerne unsere Lösungsexpert:innen. Gerne helfen wir Ihnen dabei, OCR-Texterkennung in Ihre Unternehmensabläufe zu integrieren.
Das könnte Sie ebenfalls interessieren
Schecks mithilfe von Scanner-Software digital einlösen
Die Verarbeitung von Schecks lässt sich durch die visuelle Erfassung und das Scannen des MICR-Codes deutlich beschleunigen.
Dokumentenscanner-Apps: 7 Funktionen, die nicht fehlen dürfen
Lediglich ein Foto von einem Dokument aufzunehmen, reicht für die automatische Verarbeitung nicht aus. Halten Sie nach einer Scanlösung mit folgenden Funktionen Ausschau.
Amerikanische Führerscheine scannen: Datenextraktion aus PDF417 mittels Barcode-Parser
Führerscheine mit PDF417-Codes können von einem Barcode-Scanner mit integriertem Daten-Parser gelesen werden, um eine Vielzahl nützlicher Informationen abzurufen.