Zhromadźene spisy Handrija Zejlerja

Informacije

Pozadk

Strona nasta 2021/2022 we wobłuku projekta Prototyp hornjoserbskeje digitalneje biblioteki na zakładźe korpusowych tekstow: Zhromadźene spisy Handrija Zejlerja (historiske wudaće 1883–1891). Wona je zdobom přinošk Serbskeho instituta k jubilejnemu lětu Zejlerja a Kocora 2022.

Projekt nawjazuje na předdźěła Dolnoserbskeje digitalneje biblioteki a wužiwa tam wudźěłane techniske srědki.

Zakład čitanskich wersijow su korpusowe teksty z wysokej kwalitu, kotrež su so z pomocu kompleksneho digitalizaciskeho a wobdźěłowanskeho procesa na aktualny staw přinjesli. Wopisanje procedury a cyłkowneje koncepcije za přihotowanje korpusowych tekstow namaka so w nastawku „Das niedersorbische Globalkorpus als Ziel einer ganzheitlichen Konzeption zum Aufbau von Textkorpora“ (Bartels 2020 w Lětopisu 67, zešiwk 2, s. 4–44).

Wobsah

Jako prototyp digitalneje biblioteki hornjoserbskich korpusowych tekstow je so historiska štyrizwjazkowa a nimale 1500 stron wopřijimaca edicija Zejlerjowych zhromadźenych spisow spřistupniła. Wona wobsahuje lyriku, prozu a dramatiske teksty spisowaćela a přidatnje jeho žiwjenjoběh a rozprawu wo nastawanju historiskeho wudaća – woboje wozjewjene w štwórtym zwjazku originalneho ćišća.

Připrawjenje a prezentacija

Prezentowane teksty su sćěhowacy dosć kompleksny proces digitalizacije přešli:

  • wobstaranje digitalneho wobraza
  • awtomatiske spóznawanje layouta
  • awtomatiske spóznawanje teksta (OCRowanje) a trenowanje OCR-modelow za hornjoserbšćinu
  • manuelne překorigowanje OCRowaneho teksta
  • zjednotnjenje wotpisa a koděrowanje po předwidźanych standardach
    • koděrowanje pismikow: Unicode (UTF-8)
    • anotacija semantiskeje struktury dokumentow: TEI P5 (woznamjenjenje elementow kaž na př. spočatka a kónca kapitla, titulow, mjezytitulow, štučkow basnjow, wuzběhnjenych citatow, nóžkow, čisłow stron a mnohich dalšich elementow, kotrež zwuraznjeja so w ćišću z pomocu wšelakich konwencionalnych grafiskich a typografiskich srědkow)
  • generěrowanje internetoweho wudaća na zakładźe konsistentneje strukturneje anotacije
  • rozeznawanje tekstowych elementow, na př. titulow, štučkow, lisćinow, wotrězkow atd., z pomocu unifikowanych typografiskich srědkow (Konkretne jednotki prezentuja so we wšěch dokumentach biblioteki na samsne wašnje a njekryja so tuž z chabłatymi rozrisanjemi originalnych ćišćow.)
  • zestajenje wuzwolenych elementow hierarchiskeje struktury dokumenta (na př. knižnych kapitlow) do zapisa wobsaha

Nimo direktnje w browseru přistupneho wudaća (HTML) poskićuja so warianty za download, kotrež hodźa so tež offline wužiwać. Poskićuja so formaty PDF, ePUB a jednory tekstowy format.

Přidatnje jewi so w dokumentach link na digitalne faksimile originalneho ćišća a na tekstowu wersiju w modernizowanym (do dalokeje měry dźensnišim) prawopisu.

Projektowa skupina

Cyłkowny nawod a koordinacija projekta
Fabian Kaulfürst
Koncepcija strony
Hauke Bartels, Fabian Kaulfürst, Joanna Szczepańska, Marcin Szczepański (we wobłuku dźěła na Dolnoserbskej digitalnej bibliotece)
Manuelne korigowanje zmylkow
Fabian Kaulfürst
Wersije z modernizowanym pisanjom
Fabian Kaulfürst
Strukturowanje tekstow
Joanna Szczepańska, Marcin Szczepański, Beata Zyndźic
Wutworjenje digitalnych wobrazow a přistupnjenje online
Wito Bejmak / Serbska centralna biblioteka (w kooperaciji ze SLUB we wobłuku sakskeho krajneho digitalizaciskeho programa)
Trenowanje OCR-modela a OCRowanje
Wito Bejmak (Serbska centralna biblioteka)
Stajenje digitalnych wudaćow a techniske realizowanje strony
Marcin Szczepański

Wuměnjenja za wužiwanje

Połne teksty hornjoserbskeje digitalneje biblioteki steja – dalokož njeje so to hinak woznamjeniło – pod licencu Creative Commons (CC BY-SA 4.0) k dispoziciji a hodźa so bjez wobmjezowanja wužiwać. Jeli so teksty dale wužiwaja, dyrbi so na to skedźbnić, zo je elektroniska wersija w Serbskim instituće nastała, wyše toho ma so samsna licenca wužiwać.

Ryzy tekstowa wersija wěsteje twórby njeje wot podateje licency potrjechena. To rěka: Wersija z ryzy tekstom twórby (bjez anotacijow XMLowych abo HTMLowych wersijow) móže so w zmysle zjawneho wobsydstwa (public domain) bjez kóždehožkuli wobmjezowanja wužiwać.

Wuwiće strony

2022-10-28
spřistupnjenje prěnjeje wersije w interneće