OCR4all ist eine Software, die zur digitalen Texterschließung vornehmlich sehr früh gedruckter Werke entwickelt wurde. Da deren Drucktypen und oft komplex gestalteten Layoutkonzeptionen die Erkennungsmöglichkeiten vieler anderer Texterkennungsprogramme übersteigen, bedarf es hier der Möglichkeit, den Digitalisierungsvorgang variabel, korpus- und werkspezifisch zu gestalten. Verständlich und selbstständig anwendbar spricht der in OCR4all vorgeschlagene semi-automatische OCR-Workflow dabei auch einen dezidiert nicht-informatischen Nutzerkreis an und kombiniert unterschiedliche Arbeitswerkzeuge und Tools innerhalb einer einheitlichen Benutzeroberfläche. Der ständige Wechsel zwischen unterschiedlichen Programmen ist deshalb nicht mehr notwendig. Mit dem Abschluss der zweiten Projektphase des BMBF-geförderten Verbundprojekts Kallimachos wird die Software nun am Zentrum für Philologie und Digitalität der Universität Würzburg etabliert, um sie einer möglichst breiten Nutzergruppe dauerhaft frei verfügbar zu machen.

Workflow

Von der Vorverarbeitung der zur bearbeitenden Bilddateien (sog. Preprocessing) über die Layoutsegmentierung (sog. Region Segmentation mit LAREX), die Zeilensegmentierung (Line Segmentation) und Texterkennung (Recognition mit Calamari) bis hin zur Korrektur der erkannten Texte (Ground Truth Production) und der Erstellung werkspezifischer OCR-Modelle in einem Trainingsmodul beschreibt OCR4all einen vollwertigen OCR-Workflow.

Workflow
Abb.: Hauptkomponenten eines OCR-Workflows: Originalbild, Vorverarbeitung, Segmentierung, Texterkennung, Nachkorrektur.

Vor allem durch die Möglichkeit der Herstellung und des Trainings werkspezifischer Texterkennungsmodelle können mit OCR4all bei so gut wie allen gedruckten Texten sehr gute Ergebnisse in der digitalen Texterschließung erzielt werden.

Segmentierung
Abb.: Semantische Segmentierung
des Layouts mit LAREX.
Workflow
Abb.: Textuelle Korrektur in Seitenansicht (links), zeilenbasierter Ansicht (Mitte), Virtual Keyboard (rechts).

Kooperation mit OCR-D

Im Sommer 2020 wurde eine Kooperation zwischen OCR4all und der koordinierten Förderinitiative zur Weiterentwicklung von Verfahren der Optical Character Recognition – OCR-D vereinbart. Das Hauptziel des DFG-geförderten OCR-D Projekts ist die konzeptionelle und technische Vorbereitung der Volltexttransformation der im deutschen Sprachraum erschienenen Drucke des 16.-18. Jahrhunderts (VD16, VD17, VD18). Dazu wird die automatischen Volltexterkennung, analog zum OCR4all Ansatz, in einzelne Prozessschritte zerlegt, die in der Open Source OCR-D-Software nachvollzogen werden können, mit dem Ziel, optimale Workflows für die zu prozessierenden alten Drucke zu erstellen und damit wissenschaftlich verwertbare Volltexte zu generieren.

Gegenstand der Kooperation ist, neben dem fortlaufenden Austausch vor allem über Schnittstellen, skalierbare Softwareimplementierungen, Erstellung und Bereitstellung von GT sowie kommende Entwicklungen im OCR-Bereich, eine technische Annäherung der beiden Projekte. OCR4all wird dazu in seiner OCR-Lösung die OCR-D Spezifikationen umsetzen und Schnittstellen zu OCR-D Werkzeugen realisieren. Setzt OCR4all intern auf OCR-D Lösungen, profitieren OCR4all Anwender:innen von der erweiterten Auswahl an Werkzeugen und den damit einhergehenden Möglichkeiten, wohingegen OCR-D eine größere Reichweite erhält und durch den vereinfachten Zugang auch neue Anwendergruppen in- und außerhalb der VD-Massendigitalisierung erreicht.

Berichterstattung (Auswahl)

Zitation

Falls Sie OCR4all verwenden, zitieren Sie bitte das zugehörige Paper: Reul, C., Christ, D., Hartelt, A., Balbach, N., Wehner, M., Springmann, U., Wick, C., Grundig, Büttner, A., C., Puppe, F.: OCR4all — An open-source tool providing a (semi-) automatic OCR workflow for historical printings, Applied Sciences 9(22) (2019)

Funding

Seitenanfang