anyOCR – Intelligente Texterkennung steuert das „Narrenschiff“ ins digitale Zeitalter

Das „Narrenschiff“, eine Moralsatire aus dem 15. Jahrhundert, war ein vielfach aufgelegter Bestseller seiner Zeit. Wissenschaftler des Digital-Humanities-Zentrums KALLIMACHOS der Unibibliothek Würzburg machen das Schiff nun flott für das 21. Jahrhundert. Mit an Bord sind Forscher des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI): Sie machen die anspruchsvollen Texte und Frakturschriften mittels lernfähiger Analysesysteme für Computer lesbar.




Seit Oktober 2014 vereint KALLIMACHOS Geisteswissenschaftler, Informatiker und Bibliothekare, um gemeinsam ein Zentrum für digitale Geisteswissenschaften - Digital Humanities oder auch eHumanities - aufzubauen. Durch computergestützte Verfahren und den systematischen Einsatz digitaler Ressourcen soll eine technische und soziale Infrastruktur erarbeitet werden, die Wissenschaftler bei digitalen Editionen von Büchern, Textanalysen oder der Visualisierung von Datenstrukturen unterstützt.

Der Forschungsbereich Wissensmanagement des DFKI in Kaiserslautern entwickelt die Optische Zeichenerkennung (Optical Character Recognition - OCR) für das interdisziplinäre Zentrum. Das „Narrenschiff“ ist das erste Anwendungsdokument. Die Moralsatire des Basler Autors Sebastian Brant aus dem späten 15. Jahrhundert gilt als Schlüsselstück der Frühen Neuzeit und war seinerzeit ein großer Erfolg. Seine Erstausgabe wurde 1494 in deutscher Sprache in Basel gedruckt und erschien kurze Zeit danach in ganz Europa in Form von Neuauflagen, Raubdrucken sowie Übersetzungen ins Lateinische, Niederdeutsche, Französische, Niederländische und Englische.

Die Texte aus dem Narrenschiff, die als Scans vorliegen, sollen mit der intelligenten Texterkennung aus dem DFKI automatisiert in eine computerlesbare Form übertragen werden. „Wegen der Frakturschriften, die seinerzeit verwendet wurden, ist das nicht ganz einfach“, sagt Brigitte Burrichter, Professorin für französische und italienische Literaturwissenschaft an der Universität Würzburg. Hinzu komme, dass damals jede Druckerei ihr ganz eigenes Schriftbild produzierte. Weitere Herausforderungen an die Software sind auch die andere Layoutstruktur historischer Dokumente sowie unvollständige Zeichen, vergilbtes Papier, die Empfindlichkeit der antiken Bücher oder die alte Ausdrucks- und Schreibweise, beispielsweise in alt- oder mittelhochdeutschen Texten.

„anyOCR“ – Lernfähige Texterkennungssysteme

Für die DFKI-Wissenschaftler ist das Narrenschiff ein beispielhaftes, anspruchsvolles Anwendungsszenario für ihre lernfähigen Erkennungssysteme: „Um derart alte und variantenreiche Texte wie das Narrenschiff zu analysieren sind intelligente und selbstlernende Algorithmen erforderlich, die in der Lage sind sich jedem Schriftbild anzupassen und sich selbst zu verbessern“, sagt Prof. Dr. Andreas Dengel, Wissenschaftlicher Direktor des DFKI-Forschungsbereichs Wissensmanagement. Die DFKI-Forscher entwickeln sogenannte „anyOCR“-Systeme, die sich automatisch an die unterschiedlichen Bedürfnisse und spezifischen Probleme bei der Erkennung historischer Druckschriften adaptieren. Weitere Werkzeuge und Verfahren zur Mustererkennung und statistischen Sprachmodellierung für KALLIMACHOS sollen als Open-Source-Komponenten in die bereits vorhandenen Infrastrukturen integriert werden.

Die Wissenschaftler aus Würzburg – um Burrichter und den Germanisten und Literaturwissenschaftler Prof. Joachim Hamm – untersuchen an acht ausgewählten Versionen des Narrenschiffs und der ersten englischen Übersetzung verschiedene wissenschaftliche Fragestellungen: Wie gestalten sich die Übersetzungen des Narrenschiffs? Wurden die Illustrationen und das Layout verändert? Was wurde am Text weggelassen, hinzugefügt oder umgestellt? Ziel der Forscher ist eine digitale, öffentlich zugängliche Edition. Sie soll das komplexe Seitenlayout der Narrenbücher und deren Intermedialität veranschaulichen. Die historischen Text-, Bild- und Layout-Transformationen werden darin dokumentiert, die geschichtliche Eigenbewegung des Narrenschiffs wird mit Kommentaren erläutert.

Werkzeugkasten für zukünftige Forschungen

Ein digital ediertes Narrenschiff und eine neue Spezialsoftware sind nicht die einzigen Ziele des Projekts. Die Informatiker in Würzburg und Kaiserslautern wollen auch eine Art Werkzeugkasten erarbeiten, mit dem Literaturwissenschaftler aus den historischen Disziplinen an digitalen Editionen arbeiten können – ohne dass dafür besondere Fachkenntnisse in Datenbankaufbau, optischer Zeichenerkennung oder Texterkennung nötig sind.

Im Digital-Humanities-Zentrum KALLIMACHOS arbeitet das DFKI mit Wissenschaftlern der Universität Würzburg und der Universität Erlangen-Nürnberg (Linguistische Informatik) zusammen. KALLIMACHOS wird vom Bundesministerium für Bildung und Forschung (BMBF) mit rund 2,1 Millionen Euro gefördert und von der Würzburger Universitätsbibliothek koordiniert. Weitere Projektpartner sind die Universitätsbibliothek Basel, die Bibliothek Otto Schäfer in Schweinfurt und weitere Bibliotheken, die wertvolle Narrenschiff-Ausgaben zur Verfügung stellen.

 

narragonien1
narragonien2
Der Büchernarr: Hier macht sich Sebastian Brants anno 1494 über Zeitgenossen lustig, die Bücher sammeln, sie aber nicht lesen.
Gedruckte Bücher gab es damals erst seit wenigen Jahrzehnten.
Titelbild des Narrenschiffs von Sebastian Brant (1494).
Kein Segel, kein Ruder, und doch stechen die Narren frohgemut
in See. Unter dem Bild ist zu lesen: „zuo schyff zuo schyff bruoder:
eß gat, eß gat (zu Schiff, zu Schiff Brüder, es fährt, es fährt).
narragonien4
Deutsche, lateinische und französische Bearbeitungen des Büchernarren aus Narrenschiff-Ausgaben vor 1500.

Fotos: Kallimachos

 

Weitere Informationen:
Homepage von Kallimachos: www.Kallimachos.de
Pressemitteilung der Universität Würzburg

 
Kontakt DFKI:

Prof. Dr. Andreas Dengel 

Deutsches Forschungszentrum für Künstliche Intelligenz (DFKI) GmbH
Trippstadter Straße 122
67663 Kaiserslautern 

Tel.: 0631 20575-1000
E-Mail: Andreas.Dengel@dfki.de

Pressekontakt DFKI:
Team Unternehmenskommunikation Kaiserslautern
Deutsches Forschungszentrum für Künstliche Intelligenz (DFKI) GmbH
Trippstadter Straße 122
67663 Kaiserslautern
Tel.: 0631 20575 -1700/-1710
E-Mail: uk-kl@dfki.de

Kontakt Universität Würzburg:
Prof. Dr. Brigitte Burrichter
Lehrstuhl für französische und italienische Literaturwissenschaft
Universität Würzburg,
Tel.: 0931 31-85684 

E-Mail: brigitte.burrichter@uni-wuerzburg.de

Prof. Dr. Joachim Hamm
Professur für deutsche Philologie, insbesondere Literaturgeschichte des späten Mittelalters und der frühen Neuzeit
Universität Würzburg
Tel.: 0931 31-81679

E-Mail: joachim.hamm@uni-wuerzburg.de

Dr. Hans-Günter Schmidt
Leiter des Digitalisierungszentrums und der Abteilung Handschriften und Alte Drucke an der Universitätsbibliothek Würzburg
Tel.: 0931 31-85964
E-Mail: hans-guenter.schmidt@bibliothek.uni-wuerzburg.de