Demo App Testen Sie das schnellste und zuverlässigste Barcode Scanner SDK!

Zum Download

Vergessliche KI: Warum “catastrophic interference” das maschinelle Lernen erschwert

Deep learning models have been making great strides by emulating the neural networks of the human brain. However, continual learning, which comes naturally to all of us, remains a challenge for artificial intelligence. One of the reasons for this is "catastrophic forgetting", a phenomenon that also affects Scanbot's machine learning engine. We'll tell you why it occurs and what can be done to mitigate its effects.

Was ist catastrophic interference?

Dank hochentwickelter Deep-Learning-Technologie verfügt maschinelle Intelligenz heutzutage über Fähigkeiten, die wenige Jahre zuvor kaum vorstellbar waren. In einigen Bereichen hinken die künstlichen neuronalen Netze dem menschlichen Gehirn jedoch deutlich hinterher, so etwa beim lebenslangen Lernen. Der Grund dafür liegt in der Funktionsweise der Algorithmen.

Beim Training einer Machine-Learning-Engine kommen sogenannte Gewichte (weights) ins Spiel: Erhält das Modell einen Input, wendet es dieses Gewichte an, um einen Output zu generieren, der einem bestimmten Wunschergebnis möglichst nahekommt. Speisen Sie beispielsweise ein Foto von einem Hund ein, möchten Sie, dass dieses auch als Hundefoto kategorisiert wird. Erkennt das Modell stattdessen eine Katze, müssen die Gewichte angepasst werden.

Anwendung verschiedener Gewichte im maschinellen Lernen

Now imagine that you've successfully trained your model on dog pictures, which it recognizes 99% of the time. Then, you start another training session, this time for bird pictures. The model readjusts its weights to recognize birds – and thereby loses its ability to identify dogs. This effect is called catastrophic forgetting oder catastrophic interference.

Wie kann catastrophic interference vermieden werden?

Mit dem Training von Deep-Learning-Modellen geht ein großer Zeitaufwand einher. Daher wurden verschiedene Lösungsansätze entwickelt, um die Auswirkungen dieses Phänomens zu begrenzen.

Einer dieser Ansätze ist Elastic Weight Consolidation. Dabei wird sichergestellt, dass diejenigen Gewichte, die für Aufgabe 1 relevant sind, beim Training für Aufgabe 2 nur insoweit verändert werden, dass eine gewissen Fehlerquote für Aufgabe 1 nicht überschritten wird. Da es sich um “elastische” Anpassungen handelt, werden Änderungen an den Gewichten umso stärker eingeschränkt, je wichtiger sie für eine erfolgreiche Bewältigung der ersten Aufgabe sind.

An catastrophic interference angepasste und unangepasste Modelle im Vergleich

Another approach mimics the different functions of the human brain's hippocampus and neocortex. Generally speaking, episodic memories are stored in the hippocampus, whereas the neocortex stores more general information. When certain memories are relevant in a broader sense, this information is transferred from the hippocampus to the neocortex.

Eine ähnliche Herangehensweise liegt Bi-level Continual Learning zugrunde, denn auch hier werden Informationen zu unterschiedlichen Zwecken in zwei voneinander getrennten Modellen gespeichert. Das dem Hippocampus entsprechende Modell verteilt seine Gewichte basierend auf dem Wissen des Neocortex-Äquivalents und gibt dabei Erkenntnisse für zukünftige Trainingseinheiten zurück. Ziel ist es, einerseits auf einen breit angelegten Wissensspeicher zurückgreifen zu können, und andererseits zügig neue Aufgaben zu erlernen. Ganz so, wie es der Mensch tut.

So funktioniert Machine Learning mit dem Scanbot SDK

Die Deep-Learning-Engine von Scanbot ist auf das Erkennen viele verschiedener Dokumentenarten ausgelegt, damit eine verlässliche Datenextraktion erfolgen kann. Dafür müssen wir die Auswirkungen von catastrophic interference möglichst gering halten. 

Unser Ansatz lautet Modularisierung: Statt die Engine alle Aufgaben im Alleingang ausführen zu lassen, die mit dem Erkennen von Dokumenten und der Datenextraktion zusammenhängen, verteilen wir sie auf mehrere kleinere Module. So können wir sie einzeln trainieren und spezielle Anpassungen an ihnen vornehmen, ohne dass sich das auf andere auswirkt.

Im Vorfeld trainierte Module arbeiten Aufgaben einzeln ab

Unsere vorherige Herangehensweise mit einem einzigen, großen Modell hatte lange Trainingszeiten von bis zu 8 Stunden pro Aufgabe zur Folge. Zudem kam die Engine durcheinander, wenn wir sie auf mehrere Dokumententypen trainierten, die sich sehr ähnlich waren. Mittels Modularisierung konnten wir diesen Problemen entgegenwirken, sodass eine einzelne Trainingseinheit nun nur noch 15 bis 120 Minuten in Anspruch nimmt und Verwechslungen reduziert werden konnten.

Wir haben es uns zum Ziel gemacht, unsere Engine zukünftig innerhalb von nur 3 Arbeitstagen erfolgreich auf einen neuen Dokumententyp trainieren zu können. Derzeit dauert das noch 2 bis 3 Wochen. Unsere Entwickler:innen geben alles dafür, dass sich das bald ändert, sodass wir alle Arten von Dokumenten abdecken, die Sie für Ihren Use Case benötigen. Wenn Sie mehr über das Data Capture SDK von Scanbot erfahren möchten, kontaktieren Sie unsere Lösungsexpert:innen. Wir freuen uns darauf, unsere Engine auf Ihre Anforderungen zu trainieren, um Ihnen eine automatisierte Verarbeitung von komplexen Dokumenten zu ermöglichen. Let’s talk.

Objekterkennung mit YOLO

Objekterkennung mit YOLO (You Only Look Once)

Algorithmen können zuverlässig unterschiedlichste Objekte in Fotos und Videos erkennen. In diesem Artikel werfen wir einen genaueren Blick auf ein Modell namens YOLO und seine blitzschnelle Objekterkennung.

Bereit zum Ausprobieren?

Sprechen Sie mit unseren Lösungsexpert:innen! Gemeinsam finden wir eine Lösung für Ihre Anforderungen an die mobile Datenerfassung – oder Sie integrieren das Scanbot SDK gleich in Ihre eigene mobile App oder Webseite.

Jetzt testen