Direkt zum Inhalt

Heilemann, Michael

Informationsstrukturierung für die syntaktische Annotation eines diachronen Korpus des Deutschen

Heilemann, Michael (2008) Informationsstrukturierung für die syntaktische Annotation eines diachronen Korpus des Deutschen. Diplomarbeit, Universität Regensburg.

Veröffentlichungsdatum dieses Volltextes: 20 Nov 2008 16:36
Hochschulschrift der Universität Regensburg
DOI zum Zitieren dieses Dokuments: 10.5283/epub.10800


Zusammenfassung (Deutsch)

Diese Arbeit beschreibt für das Projekt Diachrone Syntax Deutsch (DiSynDe) die Informationsstrukturierung für ein diachrones Korpus des Deutschen. Das Korpus soll auf unterschiedlichen linguistischen Ebenen annotiert werden. Da dadurch überlappende Hierarchien auftreten, die nicht in einem XML-Dokument repräsentiert werden können, wird unter anderem auf das Konzept der Stand-Off-Annotation ...

Diese Arbeit beschreibt für das Projekt Diachrone Syntax Deutsch (DiSynDe) die Informationsstrukturierung für ein diachrones Korpus des Deutschen. Das Korpus soll auf unterschiedlichen linguistischen Ebenen annotiert werden. Da dadurch überlappende Hierarchien auftreten, die nicht in einem XML-Dokument repräsentiert werden können, wird unter anderem auf das Konzept der Stand-Off-Annotation eingegangen. Für die morphosyntaktische Annotation wird das Stuttgart Tübingen Tagset (STTS) vorgestellt und an die Annotation historischer Texte angepasst. Der Schwerpunkt liegt auf der syntaktischen Annotation, für deren Kodierung Standards wie die Text Encoding Initiative (TEI), der Corpus Encoding Standard (XCES), das TIGER-Projekt und das Syntactic Annotation Framework (SynAF) gesichtet werden. Außerdem werden die DiSynDe-Annotationsvorgaben mit den syntaktischen Annotationsebenen nach EAGLES (Expert Advisory Group on Language Engineering Standards) in Beziehung gesetzt und überarbeitet. Das TIGER-Tagset zur syntaktischen Annotation wird an die DiSynDe-Annotationsvorgaben angepasst. Im Bereich der textgrammatischen Annotation wird auf die Rhetorical Structure Theory (RST) eingegangen.

Übersetzung der Zusammenfassung (Englisch)

This thesis describes information structuring for the project Diachrone Syntax Deutsch (DiSynDe) in order to create a diachronic corpus of German. The corpus will be annotated on different linguistic levels. Thus there are overlapping hierarchies, which cannot be represented in one XML-document; therefore the concept of stand-off-annotation is examined. A typical case of corpus annotation is ...

This thesis describes information structuring for the project Diachrone Syntax Deutsch (DiSynDe) in order to create a diachronic corpus of German. The corpus will be annotated on different linguistic levels. Thus there are overlapping hierarchies, which cannot be represented in one XML-document; therefore the concept of stand-off-annotation is examined. A typical case of corpus annotation is morphosyntactic annotation; therefore the Stuttgart Tübingen Tagset (STTS) is adapted to the annotation of historical texts. But the focus lies on syntactic annotation. For the encoding of syntactic annotation the following standards are discussed: Text Encoding Initiative (TEI), Corpus Encoding Standard (XCES), TIGER-Project and Syntactic Annotation Framework (SynAF). Furthermore the annotation guidelines of DiSynDe will be related to the syntactic annotation levels of EAGLES (Expert Advisory Group on Language Engineering Standards) and revised. The syntactic TIGER-Tagset will be adapted to the annotation guidelines of DiSynDe. Textgrammatical annotation is discussed concerning Rhetorical Structure Theory (RST).


Beteiligte Einrichtungen


Details

DokumentenartHochschulschrift der Universität Regensburg (Diplomarbeit)
Datum19 November 2008
Begutachter (Erstgutachter)Prof. Dr. Christian Wolff
Tag der Prüfung2008
InstitutionenSprach- und Literatur- und Kulturwissenschaften > Institut für Information und Medien, Sprache und Kultur (I:IMSK) > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff)
Informatik und Data Science > Fachbereich Menschzentrierte Informatik > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff)
Stichwörter / KeywordsAnnotation , Korpus <Linguistik> , Regensburg / Universität / Linguistische Informationswissenschaft , Diachronie , Historische Syntax , ,
Dewey-Dezimal-Klassifikation000 Informatik, Informationswissenschaft, allgemeine Werke > 020 Bibliotheks- und Informationswissenschaft
StatusVeröffentlicht
BegutachtetJa, diese Version wurde begutachtet
An der Universität Regensburg entstandenJa
URN der UB Regensburgurn:nbn:de:bvb:355-opus-10778
Dokumenten-ID10800

Bibliographische Daten exportieren

Nur für Besitzer und Autoren: Kontrollseite des Eintrags

nach oben