| Download ( PDF | 1MB) | Lizenz: Veröffentlichungsvertrag für Publikationen mit Print on Demand |
Aufbau eines wissenschaftlichen Textcorpus auf der Basis der Daten der englischsprachigen Wikipedia
Fuchs, Markus (2010) Aufbau eines wissenschaftlichen Textcorpus auf der Basis der Daten der englischsprachigen Wikipedia. Abschlussarbeit zum Master, Universität Regensburg.Veröffentlichungsdatum dieses Volltextes: 11 Okt 2010 08:26
Hochschulschrift der Universität Regensburg
DOI zum Zitieren dieses Dokuments: 10.5283/epub.11533
Zusammenfassung (Deutsch)
Die Wikipedia hat sich in den letzten Jahren zu einer vielversprechenden Forschungs-Ressource entwickelt. Ihr enzyklopädischer Aufbau, ihre freie Verfügbarkeit und die Aktualität der Inhalte sind nur ein Teil der Gründe, die die Online-Enzyklopädie so attraktiv für viele wissenschaftliche Bereiche (Information Retrieval, Information Extraction, Verarbeitung natürlicher Sprache, maschinelles ...
Die Wikipedia hat sich in den letzten Jahren zu einer vielversprechenden Forschungs-Ressource entwickelt. Ihr enzyklopädischer Aufbau, ihre freie Verfügbarkeit und die Aktualität der Inhalte sind nur ein Teil der Gründe, die die Online-Enzyklopädie so attraktiv für viele wissenschaftliche Bereiche (Information Retrieval, Information Extraction, Verarbeitung natürlicher Sprache, maschinelles Lernen, ...) machen.
Doch der Zugriff auf die in der Wikipedia enthaltenen Informationen ist nicht leicht, da sie in Wikitext, der Wikipedia-eigenen Markup-Sprache, enkodiert sind. Die maschinelle Verarbeitung von Wikitext-Markup ist jedoch sehr schwer, weil eine formale Definition fehlt.
Diese Arbeit beschreibt ein System, das aus den Daten der englischen Wikipedia automatisch ein Textkorpus erstellen kann, das die häufigsten zu Forschungszwecken verwendeten Inhalte enthält. Bei der Erstellung des Korpus werden die Artikeltexte darüber hinaus mit Lemma- und Part-of-Speech-Informationen annotiert und Kookkurrenz-Häufigkeiten extrahiert. Wegen der Speicherung aller Daten in einer relationalen Datenbank ist ein sehr effizienter Zugriff auf die Wikipedia-Daten mit umfassender Suchfunktionalität möglich.
Übersetzung der Zusammenfassung (Englisch)
With the growth in popularity over the last eight years, Wikipedia has become a very promising resource in academic studies. Some of its properties make it attractive for a wide range of research fields (information retrieval, information extraction, natural language processing, ...), e.g. free availability and up to date content. However, efficient and structured access to this information is ...
With the growth in popularity over the last eight years, Wikipedia has become a very promising resource in academic studies. Some of its properties make it attractive for a wide range of research fields (information retrieval, information extraction, natural language processing, ...), e.g. free availability and up to date content.
However, efficient and structured access to this information is not easy, as most of Wikipedia's contents are encoded in its own markup language (wikitext). And, unfortunately, there is no formal definition of wikitext, which makes parsing very difficult and burdensome.
In this thesis, we present a system that lets the researcher automatically build a richly annotated corpus containing the information most commonly used in research projects. To this end, we built our own wikitext parser based on the original converter used by Wikipedia itself to convert wikitext into HTML. The system stores all data in a relational database, which allows for efficient access and extensive retrieval functionality.
Downloadstatistik
Downloadstatistik