Obersorbisches Textkorpus

Hinweise

Allgemeine Informationen

Die Korpussuche ist ein niedrigschwelliges Werkzeug, das dem interessierten Laien- und interdisziplinären Fachpublikum die Formulierung komplexer Suchanfragen abnimmt und so auch mit einfachen Suchausdrücken umfangreiche Recherchen in obersorbischen Texten erlaubt. Damit entfällt die Notwendigkeit eingehender Kenntnisse der unterschiedlichen rechtschreiblichen Beschaffenheit von insbesondere älteren Texten (orthografische Varianz) und der Formenvielfalt von Wörtern in der obersorbischen Sprache (morphologisches Paradigma) sowie technischer Abfrageformulierungen (reguläre Ausdrücke).

Für Recherchemöglichkeiten an dieser Stelle wurde eine Auswahl obersorbischer Texte zu einem neuen digitalen Korpus zusammengeführt und intensiv aufbereitet. Derzeit umfasst dieses Korpus etwa 7,5 Millionen Tokens (laufende Wortformen); die Textbasis wird sukzessive erweitert.

Informationen zu alternativen Korpora und Korpuszugängen sowie über die Entwicklung der Korpussuche finden Sie unter Entwicklung.

Benutzung

Die Texte für die Korpussuche wurden so aufgearbeitet, dass sie Informationen über die Grundformen (Lemma) und die aktualisierte Rechtschreibung (Normalisierung) der darin vorkommenden Wörter (Tokens) enthalten.

Eine Suche nach wón oder čas (normalisierte Grundform) bringt daher auch Ergebnisse zu njón, jeho, jemu bzw. cżaß, časomaj etc. hervor.

Eine Suche nach cżaß (veraltete Tokenform) bringt Ergebnisse zu cżaß, aber keine Ergebnisse zu čas hervor.

Eine Suche nach jemu (normalisierte Tokenform) bringt Ergebnisse zu jemu, aber keine Ergebnisse zu wón, jeho etc. hervor.

Die umfassendste Suche bietet daher die nach Lemmata (Grundformen eines Wortes in aktueller Schreibung). Wo eine im Text auftretende Form mehrere Deutungen zulässt (homonym ist), also maschinell auf verschiedene Grundformen zurückgeführt werden kann, sind alle potenziellen Grundformen verzeichnet, wenngleich für ein konkretes Wort stets nur eine Grundform korrekt sein kann.

Eine Suche nach lětać bringt daher zum Beispiel auch solche Ergebnisse zu lěta hervor, wo lěta aus dem Kontext heraus als gebeugte Form von lět oder lěto zu erkennen ist.

Eine Abfolge von Wörtern (Kollokation) kann gesucht werden, indem einzelne Suchausdrücke mit Leerzeichen getrennt verknüpft werden.

Eine Suche nach wón być bringt zum Beispiel Ergebnisse wie jemu było hervor.

Standardmäßig wird das gesamte Korpus durchsucht. In den Sucheinstellungen kann die Suche jedoch auf bestimmte Teilkorpora eingegrenzt werden. Eine Übersicht der Teilkorpora finden sie unter Quellen.

Stammt ein Korpusbeleg aus einem Text, für den auch ein Lesezugang bereitgestellt wurde, erscheint am rechten Rand des Belegs das Symbol . Mit einem Klick auf das Symbol öffnet sich die Leseansicht.

Informationen zu den Experteneinstellungen finden Sie in den Hinweisen zur Expertensuche.