OCR-D

OCR-D

Integration von Kitodo und OCR-D zur produktiven Massendigitalisierung

Mit den Verzeichnissen der im deutschen Sprachraum erschienenen Drucke des 16.–18. Jahrhunderts (VD 16, VD 17, VD 18) wird eine retrospektive Nationalbibliografie des frühneuzeitlichen Schriftguts aus dem deutschsprachigen Raum erstellt. Um der Forschung die Zugänglichkeit zu diesen Texten zu erleichtern, wurden und werden große, konzertierte Anstrengungen unternommen, Volldigitalisate oder Schlüsselseiten zu den einzelnen verzeichneten Titeln digital bereitzustellen.

Hier setzt das DFG-geförderte Projekt OCR-D an, dessen Hauptziel die konzeptionelle und technische Vorbereitung der Volltexttransformation der VD ist. Die Aufgabe der automatischen Volltexterkennung wird in ihre einzelnen Prozessschritte zerlegt, die in der Open Source OCR-D-Software nachvollzogen werden können

Informationen

Leitung
Robert Strötgen, M.A.
Dr. Jan Linxweiler

Laufzeit
Juni 2021 - Mai 2023

Förderung durch
Deutsche Forschungsgemeinschaft (DFG)

Webseite
https://www.bib.uni-mannheim.de/ihre-ub/projekte-der-ub/ocr-d-kitodo/

Dies ermöglicht es, optimale Workflows für die zu prozessierenden alten Drucke zu erstellen und damit wissenschaftlich verwertbare Volltexte zu generieren.

Implementierungsprojekt Kitodo und OCR-D

In Zusammenarbeit mit der SLUB Dresden und der Universitäts­bibliothek Mannheim beteiligt sich die Universitäts­bibliothek Braunschweig an dem Vorhaben, OCR-D und Kitodo wechselseitig zu integrieren. OCR-D soll dabei für den verteilten Betrieb auf einem Web-Server nutzbar gemacht werden. Volltexte können dann im DFG-Viewer dargestellt und „on demand“ bereitgestellt werden.

Ein weiteres Ziel ist es, den Workflow für OCR-D zu optimieren und verstärkt zu automatisieren. So sollen unter anderem Community-Workshops durchgeführt und ein prototypischer Aufbau für einen allgemein verfügbaren OCR-Dienst innerhalb der Kitodo-Community erstellt werden.