Text- und Strukturerkennung

Texterkennung

Im Zuge der Digitalisierung mit Kitodo.Production durchliefen die Digitalisate den Standard-OCR-Workflow mit der Software ABBYY Cloud OCR. Die Ergebnisse dieser Volltexterstellung sind über die Webseite boersenblatt-digital online einsehbar. Spätestens hier zeigen sich die Herausforderungen, die das Börsenblatt mit seinem komplexen Layout, der Vielzahl an verwendeten Schriftarten und den verschiedenen benutzten Sprachen an eine automatisierte Texterkennungssoftware stellt.

Die SLUB arbeitet deshalb seit April 2019 intensiv an der Optimierung massenhafter Volltextgenerierung. Wir profitieren dabei in hohem Maße von den Entwicklungen des DFG-geförderten Konsortialprojektes OCR-D, das sich der Verbesserung automatischer Text- und Strukturerkennung für historische Drucke widmet. Als eine der Pilotbibliotheken entwickelt und testet die SLUB alternative Workflows zur Texterkennung anhand der Beispielszenarien aus dem Börsenblatt und greift dabei auf die Erkenntnisse des sog. Deep Learning zurück.

Alex Graves und Jürgen Schmidhuber wiesen mit ihren Forschungsergebnissen „Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks“ (2009) den Weg für die optische Texterkennung mittels moderner statistischer Lernverfahren auf Basis tiefer neuronaler Netze. Im Unterschied zu traditionellen Omnifont-Ansätzen berücksichtigen diese neuen Verfahren den textuellen Kontext schon bei der Erkennung, indem sie die komplette Zeile und nicht mehr das einzelne Zeichen betrachten. Die Basis der Erkennung sind binärwertige, eindimensionale Vektoren fester Größe. Bildlich gesprochen legt sich ein extrem feines Gitter über die Zeile. Dabei werden zunächst die Zellen der einzelnen Spalten entweder mit dem Wert 1 (bedruckt) oder 0 (unbdedruckt) belegt und anschließend deren Abfolge mit Hilfe einer Wahrscheinlichkeitsverteilung auf eine Zeichensequenz abgebildet. Diese oft als Modell bezeichnete Wahrscheinlichkeitsverteilung lässt sich anhand von manuell transkribierten Bild-Text-Zuordnungen (sog. Trainingsdaten) schätzen. Texterkennung auf Basis neuronaler Netze zeigt sich robuster gegenüber Varianz in den zu erfassenden Vorlagen und eignet sich dadurch besonders gut für historische Vorlagen. Verschiedene Schriftarten können dank der Trainingsdaten auf ein und dieselbe Art erkannt werden. Die geläufige Annahme, Fraktur sei für OCR schwieriger zu erkennen als Antiqua, gilt damit als obsolet.

 

Strukturerkennung

Während im Bereich der Texterkennung Verfahren auf Basis neuronaler Netze zusehends den Status produktiver, massentauglicher Lösungen erreichen, ist ein vergleichbarer Durchbruch auf dem Gebiet der Strukturerkennung bisher nicht gelungen. Strukturerkennung oder auch Layoutanalyse bezeichnet die automatische Segmentierung von Seiten in einzelne Regionen und deren layoutsemantische Klassifikation. Zwar widmen sich zahlreiche Forschungsprojekte und wissenschaftliche Publikationen dem Thema, die daraus hervorgehenden Softwarelösungen haben aber allenfalls prototypischen Charakter und weisen ihre Performanz meist innerhalb der sehr engen Domäne wissenschaftlicher Wettbewerbe nach. Allerdings lassen die beeindruckenden Ergebnisse, die jetzt bereits auf dem Gebiet der Objekterkennung möglich sind, perspektivisch einen ähnlichen Qualitätssprung wie bei der Texterkennung erwarten.

Die Ergebnisse der Verarbeitung mit ABBYY Cloud OCR für das Börsenblatt sind im Bereich der Seitensegmentierung durchaus zufriedenstellend: Der Spaltensatz ist durchweg erkannt, und es gibt keine Überlappungen zwischen einzelnen Absätzen, Artikeln oder Anzeigen. Auch die Text-Bild-Trennung funktioniert mehrheitlich. Eine große Fehlerquelle bleibt jedoch die mangelhafte Unterteilung einzelner Regionen in Zeilen, ausgelöst durch stark unterschiedliche Schriftgrößen auf einer Seite. Solche Fehler in der Zeilenlokalisierung haben einen direkten Einfluss auf die Texterkennung. Der Teil der „Zeile“, der eigentlich aus zwei Zeilen besteht, wird samt Kontext falsch vertextet. Erst das Ende der Zeile ist wieder lesbar, wie das Beispiel zeigt:

o?J?^i6)'.''(Är!^'1049o'"''^^'^Kriminalroman.

Um diesem Problem zu begegnen, nutzen wir das Konzept der lokal adaptiven Verarbeitung. Anstatt der ganzen Seite werden jeweils die durch die Seitensegmentierung definierten Regionen an die Zeilenlokalisierung übergeben. Die Varianz in der Schriftgröße wird dadurch deutlich reduziert, die Zeilen korrekt erkannt. Ein bisher offenes Problem bleiben Textregionen, die im initialen OCR-Durchlauf nicht als solche erkannt wurden. Wir hoffen, auch dieses Problem zeitnah beheben zu können.

Optimierter OCR-Workflow für das Börsenblatt

Um die aktuelle Textqualität perspektivisch auf ein den wissenschaftlichen Ansprüchen genügendes Niveau zu heben, implementieren wir einen OCR-Workflow, der die skizzierten Verbesserungen an Text- und Strukturerkennung umsetzen soll. Die lokale Bildoptimierung findet dabei auf der Grundlage der durch die Abbyy OCR erkannten Textregionen statt. Nach der Regionensegmentierung und der Optimierung der Regionenbilder findet die Zeilentrennung statt. Im nächsten Schritt werden Bilder auf Zeilenebene erzeugt und daraufhin einzeln optimiert, sodass wir die bestmögliche Vorlage für die Texterkennung gewährleisten. Um der typografischen Vielfalt des Börsenblatts so weit wie möglich gerecht zu werden, nutzt die Texterkennung sieben verschiedene Erkennungsmodelle. Wir verzichten auf eine automatische Nachkorrektur, da die Vielzahl im Text enthaltener Eigennamen sowie die fremdsprachlichen Anteile unweigerlich zu einer „Verschlimmbesserung“ (Schulz et al. 2020) des Volltextes führen würden. Unser Verfahren hingegen erzeugt einen substanziell verbesserten Volltext. Die Optimierungen wollen wir für sämtliche Bände des Börsenblatts durchführen, um die aktuelle Version der Volltexte schrittweise zu ersetzen.

Die Gegenüberstellung illustriert das optimierte Ergebnis anhand der fünften Seite des Börsenblatts vom 14.02.1916:

M 36, 14. Februar 1916.
Bibliographiſcher Teil.
Bibliographiſcher und Anzeigen-Teil
A. Bibliographiſcher Teil.
Erſchienene Neuigkeiten des deutſchen Buchhandels,
Mitgeteilt von der Bibliographiſchen Abteilung.
o – die Firma des Einſenders iſt dem Titel nicht aufgedruckt.
+ vor dem Preiſe = nur mit Angabe eines Nettopreiſes eingeſchickt.
b = das Werk wird nur bar abgegeben.
n vor dem Einbandspreis = der Einband wird nicht oder nur ver–
kürzt rabattiert oder der Nabattſatz vom Verleger nicht mitgeteilt.
Bei den mit n.n. und n.n.n. bezeichneten Preiſen iſt eine Gebühr für
die Beſorgung berechtigt.
Preiſe in Mark und Pfennigen. (p. vor dem Preiſe = auch Partiepreiſe.)
Abel & Müller in Leipzig,
Jünke, Arnold: Zeppelin im Weltkriege. (224 S.) 8%, o. Y. ['16].
1.–
Friedrich Ader in Dresden.
Zeitſchrift, Deutſche, f. Gabelsbergerſche Stenographie. Schriftleitg.:
Pau! Paßler. [1.] Jg. 1916. 12 Arn. (N·. 1. 16 S.) 8. b 3.–
Georg Bath in Berlin. |
Siekmann's Taschen-Kalender f. Beamte d. Militärverwaltg. 1916. Mit
Genehmigg. d. kgl. preuss. Kriegsministeriums hrsg. v, Rechngsr.
Geh. exped. Sekr. G, Trautmann. 39, Jg. 2 Tle. (XLI, 719 u.
IX, 407 u. 84 S.) 16°, Lwbd. u. geh. b 4, 20;
vor Erscheinen bestellt 3. 50
C. H. Beck'ſche Verlagsbuchhandlung (Oskar Beck) in München. |
Vesper, Mill. Briefe zweier Liebenden. Gedichte. (84 5.) kl. 8.
16. Pappbd·. 2. -
^ 36, 14. Februar 1916.
Bibliographisch« Teil.
Bibliographischer und Anzeigen-Teil
Bibliographischer Teil.
Erschienene Neuigkeiten des deutschen Buchhandels.
Mitgeteilt von der Bibliographischen Abteilung.
o – die Firma des Einsenders ist dem Titel nicht aufgcdruckt.
f vor dem Preise – nur mit Angabe eines Nettopreises eingeschickt,
b – das Werk wird nur bar abgegeben.
n vor dem Einbandspreis – der Einband wird nicht oder nur ver­
kürzt rabatticrt oder der Nabattsatz vom Verleger nicht mitgeteilt.
Bei den mit n.v. und v.o.v. bezeichn·ten Preisen ist eine Gebühr für
die Besorgung berechtigt.
Preise in Mark und Pfennigen, (p vor dem Preise – auch Partiepreise.)
Abel L Müller in Leipzig.
Flinke, Arnold: Zeppelin im Weltkriege. (224 S.) 8". o. I. s'16).
1. –
Friedrich Ader in Dresden.
Zeitschrift, Deutsche, f. Gabelsbergersche Stenographie. Schriftleitg.:
Paul Pätzler. sl.f Jg. 1916. 12 Nrn. (Nr. 1. 16 S.) b 3. –
Georg Bath in Berlin.
8ivlimrriln'8 IsLeken-Kulencler k. veamto 6. I^ilitürverwaltA. 1916. Mt
OenelilnigF. cl. ÜZI. preuLS. Kri6F8mini8t6riuni8 bi88- v. K6ekn§8r.
Vob. oxpocl. sekr. O. Irautmami. 39. 3Z. 2 Ile. (XVI, 719 u.
IX, 407 u. 84 8.) 16°. vvvdcl. u. ßeb. b 4. 20;
vor Kr8eti6M6Q d68teI1t 3. 50
C. H. Bcck'schc Verlagsbuchhandlung (Oskar Beck) in München.
'16. vuppbck. 2. –