Gesammelte Werke Handrij Zejlers

Informationen

Hintergrund

Die Seite entstand 2021/2022 im Rahmen des Projekts Prototyp einer korpustextbasierten obersorbischen digitalen Bibliothek: Gesammelte Werke Handrij Zejlers (historische Ausgabe 1883–1891). Sie ist gleichzeitig ein Beitrag des Sorbischen Instituts/Serbski institut zum Zejler-Kocor-Jubiläumsjahr 2022.

Das Projekt knüpft an Vorarbeiten der Niedersorbischen digitalen Bibliothek an und nutzt die dort erarbeiteten technischen Entwicklungen.

Die den Lesefassungen zugrundeliegenden hochwertigen Korpustexte wurden durch einen mehrstufigen aufwendigen Digitalisierungs- und Bearbeitungsprozess erstellt. Eine Beschreibung des Verfahrens und der Gesamtkonzeption zur Aufbereitung der Korpustexte findet sich im Artikel „Das niedersorbische Globalkorpus als Ziel einer ganzheitlichen Konzeption zum Aufbau von Textkorpora“ (Bartels 2020 im Lětopis 67, Heft 2, S. 4–44).

Inhalt

Als Prototyp einer digitalen Bibliothek obersorbischer Korpustexte wurde die vierbändige, annähernd 1500 Druckseiten umfassende historische Edition der Gesammelten Werke Handrij Zejlers zugänglich gemacht. Diese umfasst Lyrik, Prosa und dramatische Texte des Schriftstellers sowie zusätzlich seinen Lebenslauf und einen Bericht zur Entstehung der historischen Ausgabe – beides veröffentlicht im vierten Band des originalen Drucks.

Aufbereitung und Darstellung

Die bereitgestellten Texte wurden mithilfe eines komplexen Digitalisierungsprozesses mit den folgenden grundsätzlichen Schritten aufbereitet:

  • Beschaffung der Bilddigitalisate
  • automatische Layouterkennung
  • automatische Texterkennung (OCR) und Trainieren von OCR-Modellen für das Obersorbische
  • manuelle Korrektur des per OCR erstellten Texts
  • Vereinheitlichung der Abschrift und Kodierung nach vorgesehenen Standards
    • Buchstabenkodierung: Unicode (UTF-8)
    • Annotation von Metaangaben sowie der semantischen Dokumentstruktur: TEI P5 (Markierung von Elementen wie bspw. Anfang und Ende von Kapiteln, Titeln, Zwischentiteln, Gedichtstrophen, hervorgehobener Zitate, Fußnoten, Seitenzahlen und vielen weiteren Elementen, die im Druck mithilfe verschiedener konventioneller grafischer und typografischer Mittel ausgedrückt werden.)
  • Generierung der Internetausgabe auf Grundlage der konsistenten Strukturannotation
  • Unterscheidung von Textelementen wie Titeln, Strophen, Listen, Absätzen usw. mithilfe unifizierter typografischer Mittel (Die konkreten Einheiten werden in sämtlichen Dokumenten der Bibliothek einheitlich dargestellt, sind also nicht identisch mit den teilweise unterschiedlichen Lösungen in den Originaldrucken.
  • Zusammenstellung ausgewählter Elemente der hierarchischen Dokumentstruktur (z. B. Buchkapitel) in ein Inhaltsverzeichnis

Neben der direkt im Browser zugänglichen Version (HTML) gibt es Downloadvarianten, die bspw. eine Offline-Nutzung ermöglichen. Angeboten werden die Formate PDF, ePUB und das einfache Textformat.

Zusätzlich gibt es bei den präsentierten Dokumenten Verweise auf digitale Faksimiles der Drucke sowie auf eine Textversion in modernisierter (weitestgehend heutiger) Schreibweise.

Projektgruppe

Gesamtleitung und Projektkoordination
Fabian Kaulfürst
Seitenkonzeption
Hauke Bartels, Fabian Kaulfürst, Joanna Szczepańska, Marcin Szczepański (im Rahmen der Arbeiten zur Niedersorbischen digitalen Bibliothek)
Manuelle Fehlerkorrektur
Fabian Kaulfürst
Versionen mit modernisierter Schreibung
Fabian Kaulfürst
Strukturierung der Texte
Joanna Szczepańska, Marcin Szczepański, Beata Zyndźic
Erzeugung der Bilddigitalisate und Online-Bereitstellung
Wito Böhmak / Sorbische Zentralbibliothek (in Kooperation mit der SLUB im Rahmen des sächsischen Landesdigitalisierungsprogramms)
Trainieren des OCR-Modells, OCR-Durchführung
Wito Böhmak (Sorbische Zentralbibliothek)
Setzen der digitalen Ausgaben und technische Realisierung der Webseite
Marcin Szczepański

Nutzungsbedingungen

Die Volltexte der obersorbischen digitalen Bibliothek stehen – soweit nicht anderweitig gekennzeichnet – unter einer Creative Commons Lizenz (CC BY-SA 4.0) zur Verfügung und dürfen uneingeschränkt genutzt werden. Bei einer Weiterverwendung der Texte ist auf das Sorbische Institut als Urheber der elektronischen Fassung hinzuweisen und die gleiche Lizenz zu nutzen.

Die reine Textversion eines Werkes ist von einer angegebenen Lizenz nicht betroffen. Das heißt: Die Reintext-Version eines Werkes (ohne Annotationen der XML- bzw. HTML-Versionen) kann im Sinne der Gemeinfreiheit ohne jegliche Einschränkungen benutzt werden.

Entwicklung der Seite

2022-10-28
Veröffentlichung der ersten Version im Internet