Emoji Erleben Sie ein schnelles & zuverlässiges Barcode Scanning SDK mit unserer neuen Demo App! Probieren Sie es aus! Unsere neue Barcode Scanning Demo App:
Erleben Sie ein schnelles & zuverlässiges Barcode Scanning SDK!

OCR-Texterkennung für die automatische Dokumentenverarbeitung

As optical character recognition technology improves, companies can digitize documents faster and more accurately than ever. But a capable OCR solution alone is not enough to automate document processing - effective pre- and postprocessing is needed, too. In this article, we'll look at the current state of OCR and how it is now being augmented by machine learning.

Was ist OCR?

Die Digitalisierung von Papierunterlagen kann für Unternehmen enorme Effizienzsteigerungen bedeuten. Einmal konvertiert, lassen sich die Daten softwaregestützt durchsuchen, sortieren und analysieren, um wertvolle Erkenntnisse zu gewinnen. Möglich wird dies durch “Optical Character Recognition”, kurz OCR. 

Obwohl die Bezeichnung weithin bekannt ist, wissen nur wenige, welche Prozesse wirklich dahinterstecken. Bevor wir uns mit den technischen Details befassen, sollten wir zwischen den verschiedenen Kategorien maschineller Texterkennung unterscheiden, die unter den Sammelbegriff OCR fallen:

  • Optical character recognition (OCR im engeren Sinn): Erkennung von einzelnen gedruckten Zeichen
  • Optical word recognition (OWR): Erkennung von ganzen gedruckten Wörtern
  • Intelligent character recognition (ICR): Erkennung von einzelnen gedruckten oder handgeschriebenen Zeichen, nutzt Machine Learning
  • Intelligent word recognition (IWR): Erkennung von ganzen gedruckten oder handgeschriebenen Wörtern, nutzt Machine Learning

Depending on your use case, you may need different types of software, with or without machine learning capabilities. There’s also the difference between document text und scene text. Scene text consists of letters and words "in the wild", for example, on a street sign. These are generally much harder to process, since things like angle, contrast, and font variations have to be factored in. It's thus best to ask yourself beforehand what texts you will perform data extraction on, so you can choose an appropriate software solution.

Beispiel für Binarisierung bei OCR

Aufbereitung für OCR

Für möglichst gute Ergebnisse sollten die zu verarbeitenden Bilddateien vorbereitet werden, bevor die eigentliche Texterkennung durch die OCR-Software beginnt. 

Auch bei Flachbett-Scannern ist das Ergebnis etwa häufig leicht verzerrt. Wird dies korrigiert, fällt es der OCR-Software leichter, die Textzeilen korrekt zu erfassen und somit etwa Wörter besser voneinander zu trennen.

Als nächstes folgt die Binarisierung. Dabei wird ein Dokument in Farbe oder Graustufen auf Schwarz-Weiß reduziert, sodass sich der Text eindeutig vom Hintergrund abhebt. Je nach Qualität des Inputs kommt es vor, dass der Hintergrund nicht vollständig entfernt werden kann. Das führt zu einem körnigen Bild, was die Texterkennung erschwert. Vor der Binarisierung können daher Bildfilter zum Einsatz kommen, die dem entgegenwirken.

Textausgabe und Nachbearbeitung

Nachdem die OCR-Software das gesamte Dokument erfasst hat, gibt sie den enthaltenen Text in digitaler Form wieder aus. Hierfür stehen unterschiedliche Möglichkeiten zur Auswahl. Am einfachsten ist das Erstellen einer reinen Textdatei, in der der Inhalt als ein einziger Textblock ohne Zeilenumbrüche und Formatierung gespeichert wird. Für sehr kurze Texte mag diese Vorgehensweise ausreichen, für größere Dokumente oder komplexe Formulare ist sie aber ungeeignet.

Manche Tools geben eine Word-Datei aus und versuchen dabei die Formatierung des ursprünglichen Dokuments nachzuahmen. Das Ergebnis ist aber selten optimal, besonders wenn die Datei später bearbeitet werden soll. 

Eine weitere Möglichkeit ist, den erfassten Text als unsichtbare Ebene über eine PDF-Version der ursprünglichen Bilddatei zu legen. Damit bleibt das Aussehen perfekt erhalten, der Text lässt sich nun aber auch durchsuchen und markieren.

OCR Turn documents into editable PDF

OCR-Texterkennung mit Machine Learning verbessern

Höchste Genauigkeit ist gerade dann wichtig, wenn mittels OCR-Technologie extrahierte Daten automatisch weiterverarbeitet werden sollen, um die manuelle Dateneingabe zu ersetzen. In diesem Fall kann maschinelles Lernen dabei helfen, genauere Ergebnisse zu erzielen. 

Wenn Sie beispielsweise Text auf papierbasierten Rechnungen automatisch erfassen möchten, wissen Sie zwar, welche Arten von Informationen diese enthalten, jedoch nicht, wo genau auf dem jeweiligen Dokument sie zu finden sind. Deep-Learning-Modelle können auf Datentypen wie Adressen und Kontonummern trainiert werden, um sie schnell zu erkennen, zu kennzeichnen und für die Weiterverarbeitung automatisch zu extrahieren .

Möchten Sie Text abseits von Dokumenten erfassen, ist die Unterstützung von Machine Learning für die OCR unerlässlich. Nehmen wir an, Sie wollen die Kennzeichen von Fahrzeugen auf Ihrem Unternehmensgelände erfassen: OCR-Texterkennung allein reicht hier nicht aus. Stattdessen benötigen Sie ein auf diese Aufgabe trainiertes Deep-Learning-Modell, welches die Kennzeichen zunächst erkennt und erfasst, die Bilddateien für die Weiterverarbeitung anpasst, die einzelnen Zeichen ausliest und schließlich in einem maschinenlesbaren Format speichert.

License Plata Data Capture

Einsatz von OCR zur Optimierung von Arbeitsabläufen

Viele Unternehmen setzen inzwischen zunehmend auf digitales Dokumentenmanagement. Hierfür kann beispielsweise jedes eingehende Papierdokument eingescannt und elektronisch im System abgelegt werden, um den Zugriff für alle zu gewährleisten. Direkt im Anschluss wird das Original archiviert. 

Wird auf diese Dokumente zusätzlich OCR angewendet, lassen sie sich nach Stichwörtern wie Firmenname, Datum, Adresse usw. durchsuchen und können so noch Jahre später leicht wiedergefunden werden. Ihre Mitarbeitenden verbringen damit deutlich weniger Zeit damit, nach ihnen zu suchen.

Hat Ihr Unternehmen einen sehr spezifischen Anwendungsfall für die automatische Dokumentenverarbeitung? Sie können sich glücklich schätzen: Je enger Ihre Anforderungen, desto leichter kann man ein Deep-Learning-Modell dafür trainieren. Im ersten Moment mag das einschüchternd klingen, doch die hochwertigen Ergebnisse sind den Aufwand wert.

Scanbot SDK's Dokumentenscanner uses the Tesseract OCR engine to recognize and digitize text while applying different image filters to optimize results. Our Data Capture SDK goes one step further: Leveraging our deep learning model, it can recognize all kinds of document and scene text. We are currently fine-tuning our engine so that it can be successfully trained on a new document type within just three business days. 

Wenn Sie glauben, dass diese Technologie für Ihren Anwendungsfall interessant sein könnte, kontaktieren Sie gerne unsere Lösungsexpert:innen. Gerne helfen wir Ihnen dabei, OCR-Texterkennung in Ihre Unternehmensabläufe zu integrieren.

Das könnte Sie ebenfalls interessieren

Frau verwendet einen Scheck-Scanner auf ihrem Smartphone

Schecks mithilfe von Scanner-Software digital einlösen

Die Verarbeitung von Schecks lässt sich durch die visuelle Erfassung und das Scannen des MICR-Codes deutlich beschleunigen.

Die wichtigsten Features von Dokumentenscanner-Apps

Dokumentenscanner-Apps: 7 Funktionen, die nicht fehlen dürfen

Lediglich ein Foto von einem Dokument aufzunehmen, reicht für die automatische Verarbeitung nicht aus. Halten Sie nach einer Scanlösung mit folgenden Funktionen Ausschau.

Mittels Barcode-Parser Daten aus Führerscheinen extrahieren

Amerikanische Führerscheine scannen: Datenextraktion aus PDF417 mittels Barcode-Parser

Führerscheine mit PDF417-Codes können von einem Barcode-Scanner mit integriertem Daten-Parser gelesen werden, um eine Vielzahl nützlicher Informationen abzurufen.

Bereit zum Ausprobieren?

Sprechen Sie mit unseren Lösungsexpert:innen! Gemeinsam finden wir eine Lösung für Ihre Anforderungen an die mobile Datenerfassung – oder Sie integrieren das Scanbot SDK gleich in Ihre eigene mobile App oder Webseite.

Jetzt testen