| Download ( PDF | 2MB) | Lizenz: Creative Commons Namensnennung 3.0 de |
Informationsstrukturierung für die syntaktische Annotation eines diachronen Korpus des Deutschen
Heilemann, Michael (2008) Informationsstrukturierung für die syntaktische Annotation eines diachronen Korpus des Deutschen. Diplomarbeit, Universität Regensburg.Veröffentlichungsdatum dieses Volltextes: 20 Nov 2008 16:36
Hochschulschrift der Universität Regensburg
DOI zum Zitieren dieses Dokuments: 10.5283/epub.10800
Zusammenfassung (Deutsch)
Diese Arbeit beschreibt für das Projekt Diachrone Syntax Deutsch (DiSynDe) die Informationsstrukturierung für ein diachrones Korpus des Deutschen. Das Korpus soll auf unterschiedlichen linguistischen Ebenen annotiert werden. Da dadurch überlappende Hierarchien auftreten, die nicht in einem XML-Dokument repräsentiert werden können, wird unter anderem auf das Konzept der Stand-Off-Annotation ...
Diese Arbeit beschreibt für das Projekt Diachrone Syntax Deutsch (DiSynDe) die Informationsstrukturierung für ein diachrones Korpus des Deutschen. Das Korpus soll auf unterschiedlichen linguistischen Ebenen annotiert werden. Da dadurch überlappende Hierarchien auftreten, die nicht in einem XML-Dokument repräsentiert werden können, wird unter anderem auf das Konzept der Stand-Off-Annotation eingegangen. Für die morphosyntaktische Annotation wird das Stuttgart Tübingen Tagset (STTS) vorgestellt und an die Annotation historischer Texte angepasst. Der Schwerpunkt liegt auf der syntaktischen Annotation, für deren Kodierung Standards wie die Text Encoding Initiative (TEI), der Corpus Encoding Standard (XCES), das TIGER-Projekt und das Syntactic Annotation Framework (SynAF) gesichtet werden. Außerdem werden die DiSynDe-Annotationsvorgaben mit den syntaktischen Annotationsebenen nach EAGLES (Expert Advisory Group on Language Engineering Standards) in Beziehung gesetzt und überarbeitet. Das TIGER-Tagset zur syntaktischen Annotation wird an die DiSynDe-Annotationsvorgaben angepasst. Im Bereich der textgrammatischen Annotation wird auf die Rhetorical Structure Theory (RST) eingegangen.
Übersetzung der Zusammenfassung (Englisch)
This thesis describes information structuring for the project Diachrone Syntax Deutsch (DiSynDe) in order to create a diachronic corpus of German. The corpus will be annotated on different linguistic levels. Thus there are overlapping hierarchies, which cannot be represented in one XML-document; therefore the concept of stand-off-annotation is examined. A typical case of corpus annotation is ...
This thesis describes information structuring for the project Diachrone Syntax Deutsch (DiSynDe) in order to create a diachronic corpus of German. The corpus will be annotated on different linguistic levels. Thus there are overlapping hierarchies, which cannot be represented in one XML-document; therefore the concept of stand-off-annotation is examined. A typical case of corpus annotation is morphosyntactic annotation; therefore the Stuttgart Tübingen Tagset (STTS) is adapted to the annotation of historical texts. But the focus lies on syntactic annotation. For the encoding of syntactic annotation the following standards are discussed: Text Encoding Initiative (TEI), Corpus Encoding Standard (XCES), TIGER-Project and Syntactic Annotation Framework (SynAF). Furthermore the annotation guidelines of DiSynDe will be related to the syntactic annotation levels of EAGLES (Expert Advisory Group on Language Engineering Standards) and revised. The syntactic TIGER-Tagset will be adapted to the annotation guidelines of DiSynDe. Textgrammatical annotation is discussed concerning Rhetorical Structure Theory (RST).
Beteiligte Einrichtungen
Details
| Dokumentenart | Hochschulschrift der Universität Regensburg (Diplomarbeit) |
| Datum | 19 November 2008 |
| Begutachter (Erstgutachter) | Prof. Dr. Christian Wolff |
| Tag der Prüfung | 2008 |
| Institutionen | Sprach- und Literatur- und Kulturwissenschaften > Institut für Information und Medien, Sprache und Kultur (I:IMSK) > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff) Informatik und Data Science > Fachbereich Menschzentrierte Informatik > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff) |
| Stichwörter / Keywords | Annotation , Korpus <Linguistik> , Regensburg / Universität / Linguistische Informationswissenschaft , Diachronie , Historische Syntax , , |
| Dewey-Dezimal-Klassifikation | 000 Informatik, Informationswissenschaft, allgemeine Werke > 020 Bibliotheks- und Informationswissenschaft |
| Status | Veröffentlicht |
| Begutachtet | Ja, diese Version wurde begutachtet |
| An der Universität Regensburg entstanden | Ja |
| URN der UB Regensburg | urn:nbn:de:bvb:355-opus-10778 |
| Dokumenten-ID | 10800 |
Downloadstatistik
Downloadstatistik