| License: Creative Commons Attribution 4.0 (6MB) |
- URN to cite this document:
- urn:nbn:de:bvb:355-epub-456910
- DOI to cite this document:
- 10.5283/epub.45691
Item type: | Thesis of the University of Regensburg (Masters) |
---|---|
Date: | 9 October 2017 |
Referee: | Prof. Christian Wolff and Jun.-Prof. Manuel Burghardt |
Date of exam: | 9 October 2017 |
Institutions: | Languages and Literatures > Institut für Information und Medien, Sprache und Kultur (I:IMSK) > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff) Informatics and Data Science > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff) |
Keywords: | Sentiment Analysis, Digital Humanities, Lessing, Annotation, Evaluation |
Dewey Decimal Classification: | 000 Computer science, information & general works > 004 Computer science 400 Language > 400 Language, Linguistics 400 Language > 430 Germanic 800 Literature > 800 Literature & rhetoric 800 Literature > 830 Literatures of Germanic languages |
Status: | Published |
Refereed: | Yes, this version has been refereed |
Created at the University of Regensburg: | Yes |
Item ID: | 45691 |
Abstract (German)
In der vorliegenden Masterarbeit wird ein mehrteiliges Projekt vorgestellt, das den Einsatz von Sentiment Analysis (SA) in der quantitativen Dramenanalyse exploriert. Als beispielhafter Untersuchungsgegenstand wird ein Korpus von 11 Dramen des Schriftstellers Gotthold Ephraim Lessing (1729 – 1782) verwendet. Die Arbeit stellt eine Erweiterung eines bestehenden Tools zur quantitativen ...

Abstract (German)
In der vorliegenden Masterarbeit wird ein mehrteiliges Projekt vorgestellt, das den Einsatz von Sentiment Analysis (SA) in der quantitativen Dramenanalyse exploriert. Als beispielhafter Untersuchungsgegenstand wird ein Korpus von 11 Dramen des Schriftstellers Gotthold Ephraim Lessing (1729 – 1782) verwendet. Die Arbeit stellt eine Erweiterung eines bestehenden Tools zur quantitativen Dramenanalyse (Katharsis) um eine SA-Komponente dar.
Es wurden Python-Programme zur Durchführung der SA entwickelt. Als zentraler SA-Ansatz wird mangels annotierter Trainings-Korpora ein Lexikon-basierter Ansatz gewählt. Um ein optimiertes SA-Verfahren zu identifizieren, werden mehrere Optionen und Herangehensweisen für die SA implementiert und auf ihre Leistung für den spezifischen Anwendungsfall untersucht. Es werden fünf der bekanntesten deutschsprachigen SA-Lexika implementiert sowie eine kombinierte Gesamtversion dieser erstellt. Als weitere Optionen wird der Einfluss einer Lexikonerweiterung mit historischen linguistischen Varianten, von Lemmatisierung über zwei Lemmatisierer und drei Lemmatisierungsarten, von drei verschiedenen Stoppwortlisten und der Beachtung von Groß- und Kleinschreibung implementiert und untersucht. Es werden für alle kombinatorischen Möglichkeiten von Lexika und Optionen verschiedene Sentiment-Metriken auf verschiedenen Ebenen berechnet. Als Ebenen des Dramas werden Sentiment-Metriken für die strukturelle Ebene (Drama, Akt, Szene, Replik), die Sprecher-Ebene (pro Drama, Akt, Szene, Replik) und für Sprecherbeziehungen (pro Dra-ma, Akt, Szene, Replik) kalkuliert. Es werden unterschiedliche Metriken für die Polari-tät (positiv, negativ) und 8 Emotionskategorien auf diesen Ebenen berechnet.
Es werden mehrere Evaluationsverfahren durchgeführt. In einer ersten informellen Evaluation wird der Anteil der Wörter der Lexika in Zusammenhang mit den genannten Optionen am Vokabular des Korpus untersucht und diskutiert. Zur Ausführung einer systematischen Evaluation wird ein Gold-Standard von annotierten Repliken erstellt. In einer Annotationsstudie beurteilen 5 Teilnehmer einen repräsentativen Korpus von 200 Repliken bezüglich Polarität und Emotionen. In einem anschließenden Fragebogen konnten Einsichten zu Probleme und Schwierigkeiten bei der Annotation erhoben werden. Die Ergebnisse der Annotation werden statistisch ausgewertet und hinsichtlich Annotationsverhalten untersucht. Als Hauptergebnisse stellt man einen grundsätzlich geringeren Übereinstimmungsgrad als bei anderen Untersuchungsgegenständen in der SA fest. Auffällig ist auch eine starke Ungleichverteilung der Polaritäten im Korpus. Es werden deutlich mehr Repliken als negativ denn als positiv wahr-genommen. Das finale Evaluations-Korpus (Gold Standard, GS) besteht aus 139 negativen und 61 positiven Repliken basierend auf der Mehrheitsentscheidung der Annotatoren.
Über ein in Python entwickeltes Evaluationsframework wurde systematisch die SA-Leistung aller Lexika und Methoden hinsichtlich der Prädiktion der Polarität einer Replik untersucht. Verschieden Evaluations-Metriken wurden zur differenzierten Ana-lyse und Diskussion aller Ansätze berechnet. Es können Erkennungsraten von bis zu 70% festgestellt werden. Unter Analyse aller Evaluationsergebnisse wird das leistungsstärkste Verfahren bestimmt. Es setzt sich aus der Methoden-Kombination des Lexikons SentiWS, erweitert durch historische linguistische Varianten, mit einer Lemmatisierung auf Text- und Lexikon-Ebene über den pattern-Lemmatisierer, ohne Stoppwortiste und unter Beachtung von Groß- und Kleinschreibung im letzten Abgleichschritt, zusammen.
Für das als am besten identifizierte Verfahren wird ein Front-End zur Visualisierung der SA-Metriken als Web-Anwendung implementiert. Es stehen interaktive Visualisierungen für Polaritäten und Emotionskategorien zur Verfügung. Es können Verteilungen und Verläufe auf Dramen-, Akt-, Szenen-, Replik-, Sprecher- und Sprecherbeziehungs (je pro Drama, Akt, Szene, Replik) exploriert werden. Der mögliche Einsatz in der Dramenanalyse wird anhand vereinzelter Fallbeispiele beschrieben. Ab-schließend werden die Ergebnisse des Gesamtprojekts im Kontext der Forschung diskutiert und mögliche Anknüpfungspunkte besprochen.
Translation of the abstract (English)
In the following master thesis, a project is presented exploring sentiment analysis in quantitative drama analysis. As use case a corpus of 11 plays by playwright Gotthold Ephraim Lessing (1729-1782) was examined. Python programs were developed to conduct the sentiment analysis. Due to the lack of annotated corpora, lexicon-based sentiment analysis was applied. Multiple options for the ...

Translation of the abstract (English)
In the following master thesis, a project is presented exploring sentiment analysis in quantitative drama analysis. As use case a corpus of 11 plays by playwright Gotthold Ephraim Lessing (1729-1782) was examined.
Python programs were developed to conduct the sentiment analysis. Due to the lack of annotated corpora, lexicon-based sentiment analysis was applied. Multiple options for the lexicon-based sentiment analysis are implemented and evaluated for this specific use case. Five of the most well-known sentiment lexicons in German as well as a combined version were evaluated. The following further options were evaluated: extension of lexicons with historical linguistic variants, two lemmatizers and three lemmatization types, three stop words lists as well as lowercasing. For all combinations of lexicons and options, different metrics for different levels are calculated. Levels are: structural levels (drama, act, scene, speech), speaker level (drama, act, scene, speech), speaker relationships (drama, act, scene, speech). Different metrics for polarity (positive, negative) and eight emotion categories are calculated.
To conduct a systematic evaluation, a Gold Standard of annotated speeches is created. Five participants rated 200 speeches of the corpus considering polarity and emotions. Via a post-questionnaire further insights considering difficulties and problems were acquired. Annotation results are analyzed, and annotation results are reported. Agreement among annotators was rather small. Furthermore, a strong imbalance considering polarity classes was identified. The final evaluation corpus (Gold Standard) consists of 139 negative and 61 positive speeches based on majority decisions.
Via an evaluation framework, all lexicons and methods were evaluated. Prediction accuracies of up to 70% were identified. The best method combination consists of the lexicon SentiWS, extended with historical linguistic variants, lemmatization on text and lexicon level via the pattern-lemmatizer, no stop words lists and no lowercasing.
For the best approach, a front end to visualize results was developed as web application. It consists of interactive visualizations for polarity and emotion categories. One can investigate visualizations for distributions and progressions for drama, act, scene, speech, speaker and speaker relationship levels (per drama, act, scene, speech). The usage for drama analysis is explained via different use cases. Lastly, the results of the project are discussed in the context of similar research.
Metadata last modified: 28 Sep 2021 06:01