Informacije
Pozadk
Strona nasta 2021/2022 we wobłuku projekta Prototyp hornjoserbskeje digitalneje biblioteki na zakładźe korpusowych tekstow: Zhromadźene spisy Handrija Zejlerja (historiske wudaće 1883–1891). Wona je zdobom přinošk Serbskeho instituta k jubilejnemu lětu Zejlerja a Kocora 2022.
Projekt nawjazuje na předdźěła Dolnoserbskeje digitalneje biblioteki a wužiwa tam wudźěłane techniske srědki.
Zakład čitanskich wersijow su korpusowe teksty z wysokej kwalitu, kotrež su so z pomocu kompleksneho digitalizaciskeho a wobdźěłowanskeho procesa na aktualny staw přinjesli. Wopisanje procedury a cyłkowneje koncepcije za přihotowanje korpusowych tekstow namaka so w nastawku „Das niedersorbische Globalkorpus als Ziel einer ganzheitlichen Konzeption zum Aufbau von Textkorpora“ (Bartels 2020 w Lětopisu 67, zešiwk 2, s. 4–44).
Wobsah
Jako prototyp digitalneje biblioteki hornjoserbskich korpusowych tekstow je so historiska štyrizwjazkowa a nimale 1500 stron wopřijimaca edicija Zejlerjowych zhromadźenych spisow spřistupniła. Wona wobsahuje lyriku, prozu a dramatiske teksty spisowaćela a přidatnje jeho žiwjenjoběh a rozprawu wo nastawanju historiskeho wudaća – woboje wozjewjene w štwórtym zwjazku originalneho ćišća.
Připrawjenje a prezentacija
Prezentowane teksty su sćěhowacy dosć kompleksny proces digitalizacije přešli:
- wobstaranje digitalneho wobraza
- awtomatiske spóznawanje layouta
- awtomatiske spóznawanje teksta (OCRowanje) a trenowanje OCR-modelow za hornjoserbšćinu
- manuelne překorigowanje OCRowaneho teksta
-
zjednotnjenje wotpisa a koděrowanje po předwidźanych standardach
- koděrowanje pismikow: Unicode (UTF-8)
- anotacija semantiskeje struktury dokumentow: TEI P5 (woznamjenjenje elementow kaž na př. spočatka a kónca kapitla, titulow, mjezytitulow, štučkow basnjow, wuzběhnjenych citatow, nóžkow, čisłow stron a mnohich dalšich elementow, kotrež zwuraznjeja so w ćišću z pomocu wšelakich konwencionalnych grafiskich a typografiskich srědkow)
- generěrowanje internetoweho wudaća na zakładźe konsistentneje strukturneje anotacije
- rozeznawanje tekstowych elementow, na př. titulow, štučkow, lisćinow, wotrězkow atd., z pomocu unifikowanych typografiskich srědkow (Konkretne jednotki prezentuja so we wšěch dokumentach biblioteki na samsne wašnje a njekryja so tuž z chabłatymi rozrisanjemi originalnych ćišćow.)
- zestajenje wuzwolenych elementow hierarchiskeje struktury dokumenta (na př. knižnych kapitlow) do zapisa wobsaha
Nimo direktnje w browseru přistupneho wudaća (HTML) poskićuja so warianty za download, kotrež hodźa so tež offline wužiwać. Poskićuja so formaty PDF, ePUB a jednory tekstowy format.
Přidatnje jewi so w dokumentach link na digitalne faksimile originalneho ćišća a na tekstowu wersiju w modernizowanym (do dalokeje měry dźensnišim) prawopisu.
Projektowa skupina
- Cyłkowny nawod a koordinacija projekta
- Fabian Kaulfürst
- Koncepcija strony
- Hauke Bartels, Fabian Kaulfürst, Joanna Szczepańska, Marcin Szczepański (we wobłuku dźěła na Dolnoserbskej digitalnej bibliotece)
- Manuelne korigowanje zmylkow
- Fabian Kaulfürst
- Wersije z modernizowanym pisanjom
- Fabian Kaulfürst
- Strukturowanje tekstow
- Joanna Szczepańska, Marcin Szczepański, Beata Zyndźic
- Wutworjenje digitalnych wobrazow a přistupnjenje online
- Wito Bejmak / Serbska centralna biblioteka (w kooperaciji ze SLUB we wobłuku sakskeho krajneho digitalizaciskeho programa)
- Trenowanje OCR-modela a OCRowanje
- Wito Bejmak (Serbska centralna biblioteka)
- Stajenje digitalnych wudaćow a techniske realizowanje strony
- Marcin Szczepański
Wuměnjenja za wužiwanje
Połne teksty hornjoserbskeje digitalneje biblioteki steja – dalokož njeje so to hinak woznamjeniło – pod licencu Creative Commons (CC BY-SA 4.0) k dispoziciji a hodźa so bjez wobmjezowanja wužiwać. Jeli so teksty dale wužiwaja, dyrbi so na to skedźbnić, zo je elektroniska wersija w Serbskim instituće nastała, wyše toho ma so samsna licenca wužiwać.
Ryzy tekstowa wersija wěsteje twórby njeje wot podateje licency potrjechena. To rěka: Wersija z ryzy tekstom twórby (bjez anotacijow XMLowych abo HTMLowych wersijow) móže so w zmysle zjawneho wobsydstwa (public domain) bjez kóždehožkuli wobmjezowanja wužiwać.
Wuwiće strony
- 2022-10-28
- spřistupnjenje prěnjeje wersije w interneće