Informationen
- Hintergrund
- Inhalt
- Aufbereitung und Darstellung
- Projektgruppe
- Nutzungsbedingungen
- Entwicklung der Seite
Hintergrund
Die Seite entstand 2021/2022 im Rahmen des Projekts Prototyp einer korpustextbasierten obersorbischen digitalen Bibliothek: Gesammelte Werke Handrij Zejlers (historische Ausgabe 1883–1891). Sie ist gleichzeitig ein Beitrag des Sorbischen Instituts/Serbski institut zum Zejler-Kocor-Jubiläumsjahr 2022.
Das Projekt knüpft an Vorarbeiten der Niedersorbischen digitalen Bibliothek an und nutzt die dort erarbeiteten technischen Entwicklungen.
Die den Lesefassungen zugrundeliegenden hochwertigen Korpustexte wurden durch einen mehrstufigen aufwendigen Digitalisierungs- und Bearbeitungsprozess erstellt. Eine Beschreibung des Verfahrens und der Gesamtkonzeption zur Aufbereitung der Korpustexte findet sich im Artikel „Das niedersorbische Globalkorpus als Ziel einer ganzheitlichen Konzeption zum Aufbau von Textkorpora“ (Bartels 2020 im Lětopis 67, Heft 2, S. 4–44).
Inhalt
Als Prototyp einer digitalen Bibliothek obersorbischer Korpustexte wurde die vierbändige, annähernd 1500 Druckseiten umfassende historische Edition der Gesammelten Werke Handrij Zejlers zugänglich gemacht. Diese umfasst Lyrik, Prosa und dramatische Texte des Schriftstellers sowie zusätzlich seinen Lebenslauf und einen Bericht zur Entstehung der historischen Ausgabe – beides veröffentlicht im vierten Band des originalen Drucks.
Aufbereitung und Darstellung
Die bereitgestellten Texte wurden mithilfe eines komplexen Digitalisierungsprozesses mit den folgenden grundsätzlichen Schritten aufbereitet:
- Beschaffung der Bilddigitalisate
- automatische Layouterkennung
- automatische Texterkennung (OCR) und Trainieren von OCR-Modellen für das Obersorbische
- manuelle Korrektur des per OCR erstellten Texts
-
Vereinheitlichung der Abschrift und Kodierung nach vorgesehenen Standards
- Buchstabenkodierung: Unicode (UTF-8)
- Annotation von Metaangaben sowie der semantischen Dokumentstruktur: TEI P5 (Markierung von Elementen wie bspw. Anfang und Ende von Kapiteln, Titeln, Zwischentiteln, Gedichtstrophen, hervorgehobener Zitate, Fußnoten, Seitenzahlen und vielen weiteren Elementen, die im Druck mithilfe verschiedener konventioneller grafischer und typografischer Mittel ausgedrückt werden.)
- Generierung der Internetausgabe auf Grundlage der konsistenten Strukturannotation
- Unterscheidung von Textelementen wie Titeln, Strophen, Listen, Absätzen usw. mithilfe unifizierter typografischer Mittel (Die konkreten Einheiten werden in sämtlichen Dokumenten der Bibliothek einheitlich dargestellt, sind also nicht identisch mit den teilweise unterschiedlichen Lösungen in den Originaldrucken.
- Zusammenstellung ausgewählter Elemente der hierarchischen Dokumentstruktur (z. B. Buchkapitel) in ein Inhaltsverzeichnis
Neben der direkt im Browser zugänglichen Version (HTML) gibt es Downloadvarianten, die bspw. eine Offline-Nutzung ermöglichen. Angeboten werden die Formate PDF, ePUB und das einfache Textformat.
Zusätzlich gibt es bei den präsentierten Dokumenten Verweise auf digitale Faksimiles der Drucke sowie auf eine Textversion in modernisierter (weitestgehend heutiger) Schreibweise.
Projektgruppe
- Gesamtleitung und Projektkoordination
- Fabian Kaulfürst
- Seitenkonzeption
- Hauke Bartels, Fabian Kaulfürst, Joanna Szczepańska, Marcin Szczepański (im Rahmen der Arbeiten zur Niedersorbischen digitalen Bibliothek)
- Manuelle Fehlerkorrektur
- Fabian Kaulfürst
- Versionen mit modernisierter Schreibung
- Fabian Kaulfürst
- Strukturierung der Texte
- Joanna Szczepańska, Marcin Szczepański, Beata Zyndźic
- Erzeugung der Bilddigitalisate und Online-Bereitstellung
- Wito Böhmak / Sorbische Zentralbibliothek (in Kooperation mit der SLUB im Rahmen des sächsischen Landesdigitalisierungsprogramms)
- Trainieren des OCR-Modells, OCR-Durchführung
- Wito Böhmak (Sorbische Zentralbibliothek)
- Setzen der digitalen Ausgaben und technische Realisierung der Webseite
- Marcin Szczepański
Nutzungsbedingungen
Die Volltexte der obersorbischen digitalen Bibliothek stehen – soweit nicht anderweitig gekennzeichnet – unter einer Creative Commons Lizenz (CC BY-SA 4.0) zur Verfügung und dürfen uneingeschränkt genutzt werden. Bei einer Weiterverwendung der Texte ist auf das Sorbische Institut als Urheber der elektronischen Fassung hinzuweisen und die gleiche Lizenz zu nutzen.
Die reine Textversion eines Werkes ist von einer angegebenen Lizenz nicht betroffen. Das heißt: Die Reintext-Version eines Werkes (ohne Annotationen der XML- bzw. HTML-Versionen) kann im Sinne der Gemeinfreiheit ohne jegliche Einschränkungen benutzt werden.
Entwicklung der Seite
- 2022-10-28
- Veröffentlichung der ersten Version im Internet