Informationsstrukturierung für die syntaktische Annotation eines diachronen Korpus des Deutschen

Heilemann, Michael (2008) Informationsstrukturierung für die syntaktische Annotation eines diachronen Korpus des Deutschen. Diplomarbeit, Universität Regensburg.

Veröffentlichungsdatum dieses Volltextes: 20 Nov 2008 16:36
Hochschulschrift der Universität Regensburg
DOI zum Zitieren dieses Dokuments: 10.5283/epub.10800

Vorschau

Download ( PDF | 2MB)

Lizenz: Creative Commons Namensnennung 3.0 de

Zusammenfassung (Deutsch)

Diese Arbeit beschreibt für das Projekt Diachrone Syntax Deutsch (DiSynDe) die Informationsstrukturierung für ein diachrones Korpus des Deutschen. Das Korpus soll auf unterschiedlichen linguistischen Ebenen annotiert werden. Da dadurch überlappende Hierarchien auftreten, die nicht in einem XML-Dokument repräsentiert werden können, wird unter anderem auf das Konzept der Stand-Off-Annotation eingegangen. Für die morphosyntaktische Annotation wird das Stuttgart Tübingen Tagset (STTS) vorgestellt und an die Annotation historischer Texte angepasst. Der Schwerpunkt liegt auf der syntaktischen Annotation, für deren Kodierung Standards wie die Text Encoding Initiative (TEI), der Corpus Encoding Standard (XCES), das TIGER-Projekt und das Syntactic Annotation Framework (SynAF) gesichtet werden. Außerdem werden die DiSynDe-Annotationsvorgaben mit den syntaktischen Annotationsebenen nach EAGLES (Expert Advisory Group on Language Engineering Standards) in Beziehung gesetzt und überarbeitet. Das TIGER-Tagset zur syntaktischen Annotation wird an die DiSynDe-Annotationsvorgaben angepasst. Im Bereich der textgrammatischen Annotation wird auf die Rhetorical Structure Theory (RST) eingegangen.

Übersetzung der Zusammenfassung (Englisch)

This thesis describes information structuring for the project Diachrone Syntax Deutsch (DiSynDe) in order to create a diachronic corpus of German. The corpus will be annotated on different linguistic levels. Thus there are overlapping hierarchies, which cannot be represented in one XML-document; therefore the concept of stand-off-annotation is examined. A typical case of corpus annotation is morphosyntactic annotation; therefore the Stuttgart Tübingen Tagset (STTS) is adapted to the annotation of historical texts. But the focus lies on syntactic annotation. For the encoding of syntactic annotation the following standards are discussed: Text Encoding Initiative (TEI), Corpus Encoding Standard (XCES), TIGER-Project and Syntactic Annotation Framework (SynAF). Furthermore the annotation guidelines of DiSynDe will be related to the syntactic annotation levels of EAGLES (Expert Advisory Group on Language Engineering Standards) and revised. The syntactic TIGER-Tagset will be adapted to the annotation guidelines of DiSynDe. Textgrammatical annotation is discussed concerning Rhetorical Structure Theory (RST).

Beteiligte Einrichtungen

Sprach- und Literatur- und Kulturwissenschaften > Institut für Information und Medien, Sprache und Kultur (I:IMSK) > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff) Informatik und Data Science > Fachbereich Menschzentrierte Informatik > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff)
Browse Publikationen

Details

Dokumentenart	Hochschulschrift der Universität Regensburg (Diplomarbeit)
Open Access Art:	Primärpublikation
Datum	19 November 2008
Begutachter (Erstgutachter)	Prof. Dr. Christian Wolff
Tag der Prüfung	2008
Institutionen	Sprach- und Literatur- und Kulturwissenschaften > Institut für Information und Medien, Sprache und Kultur (I:IMSK) > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff) Informatik und Data Science > Fachbereich Menschzentrierte Informatik > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff)
Stichwörter / Keywords	Annotation , Korpus <Linguistik> , Regensburg / Universität / Linguistische Informationswissenschaft , Diachronie , Historische Syntax , ,
Dewey-Dezimal-Klassifikation	000 Informatik, Informationswissenschaft, allgemeine Werke > 020 Bibliotheks- und Informationswissenschaft
Status	Veröffentlicht
Begutachtet	Ja, diese Version wurde begutachtet
An der Universität Regensburg entstanden	Ja
URN der UB Regensburg	urn:nbn:de:bvb:355-opus-10778
Dokumenten-ID	10800

Bibliographische Daten exportieren

Nur für Besitzer und Autoren: Kontrollseite des Eintrags

Downloadstatistik

Weitere Literatur (mittels CORE)

nach oben