Texterkennung
Im Zuge der Digitalisierung mit Kitodo.Production durchliefen die Digitalisate den Standard-OCR-Workflow mit der Software ABBYY Cloud OCR. Die Ergebnisse dieser Volltexterstellung sind über die Webseite boersenblatt-digital online einsehbar. Spätestens hier zeigen sich die Herausforderungen, die das Börsenblatt mit seinem komplexen Layout, der Vielzahl an verwendeten Schriftarten und den verschiedenen benutzten Sprachen an eine automatisierte Texterkennungssoftware stellt.
Die SLUB arbeitet deshalb seit April 2019 intensiv an der Optimierung massenhafter Volltextgenerierung. Wir profitieren dabei in hohem Maße von den Entwicklungen des DFG-geförderten Konsortialprojektes OCR-D, das sich der Verbesserung automatischer Text- und Strukturerkennung für historische Drucke widmet. Als eine der Pilotbibliotheken entwickelt und testet die SLUB alternative Workflows zur Texterkennung anhand der Beispielszenarien aus dem Börsenblatt und greift dabei auf die Erkenntnisse des sog. Deep Learning zurück.
Alex Graves und Jürgen Schmidhuber wiesen mit ihren Forschungsergebnissen „Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks“ (2009) den Weg für die optische Texterkennung mittels moderner statistischer Lernverfahren auf Basis tiefer neuronaler Netze. Im Unterschied zu traditionellen Omnifont-Ansätzen berücksichtigen diese neuen Verfahren den textuellen Kontext schon bei der Erkennung, indem sie die komplette Zeile und nicht mehr das einzelne Zeichen betrachten. Die Basis der Erkennung sind binärwertige, eindimensionale Vektoren fester Größe. Bildlich gesprochen legt sich ein extrem feines Gitter über die Zeile. Dabei werden zunächst die Zellen der einzelnen Spalten entweder mit dem Wert 1 (bedruckt) oder 0 (unbdedruckt) belegt und anschließend deren Abfolge mit Hilfe einer Wahrscheinlichkeitsverteilung auf eine Zeichensequenz abgebildet. Diese oft als Modell bezeichnete Wahrscheinlichkeitsverteilung lässt sich anhand von manuell transkribierten Bild-Text-Zuordnungen (sog. Trainingsdaten) schätzen. Texterkennung auf Basis neuronaler Netze zeigt sich robuster gegenüber Varianz in den zu erfassenden Vorlagen und eignet sich dadurch besonders gut für historische Vorlagen. Verschiedene Schriftarten können dank der Trainingsdaten auf ein und dieselbe Art erkannt werden. Die geläufige Annahme, Fraktur sei für OCR schwieriger zu erkennen als Antiqua, gilt damit als obsolet.