Zusammenfassung (Deutsch)

Die Wikipedia hat sich in den letzten Jahren zu einer vielversprechenden Forschungs-Ressource entwickelt. Ihr enzyklopädischer Aufbau, ihre freie Verfügbarkeit und die Aktualität der Inhalte sind nur ein Teil der Gründe, die die Online-Enzyklopädie so attraktiv für viele wissenschaftliche Bereiche (Information Retrieval, Information Extraction, Verarbeitung natürlicher Sprache, maschinelles ...

Die Wikipedia hat sich in den letzten Jahren zu einer vielversprechenden Forschungs-Ressource entwickelt. Ihr enzyklopädischer Aufbau, ihre freie Verfügbarkeit und die Aktualität der Inhalte sind nur ein Teil der Gründe, die die Online-Enzyklopädie so attraktiv für viele wissenschaftliche Bereiche (Information Retrieval, Information Extraction, Verarbeitung natürlicher Sprache, maschinelles Lernen, ...) machen.
Doch der Zugriff auf die in der Wikipedia enthaltenen Informationen ist nicht leicht, da sie in Wikitext, der Wikipedia-eigenen Markup-Sprache, enkodiert sind. Die maschinelle Verarbeitung von Wikitext-Markup ist jedoch sehr schwer, weil eine formale Definition fehlt.
Diese Arbeit beschreibt ein System, das aus den Daten der englischen Wikipedia automatisch ein Textkorpus erstellen kann, das die häufigsten zu Forschungszwecken verwendeten Inhalte enthält. Bei der Erstellung des Korpus werden die Artikeltexte darüber hinaus mit Lemma- und Part-of-Speech-Informationen annotiert und Kookkurrenz-Häufigkeiten extrahiert. Wegen der Speicherung aller Daten in einer relationalen Datenbank ist ein sehr effizienter Zugriff auf die Wikipedia-Daten mit umfassender Suchfunktionalität möglich.

Übersetzung der Zusammenfassung (Englisch)

With the growth in popularity over the last eight years, Wikipedia has become a very promising resource in academic studies. Some of its properties make it attractive for a wide range of research fields (information retrieval, information extraction, natural language processing, ...), e.g. free availability and up to date content. However, efficient and structured access to this information is ...

With the growth in popularity over the last eight years, Wikipedia has become a very promising resource in academic studies. Some of its properties make it attractive for a wide range of research fields (information retrieval, information extraction, natural language processing, ...), e.g. free availability and up to date content.
However, efficient and structured access to this information is not easy, as most of Wikipedia's contents are encoded in its own markup language (wikitext). And, unfortunately, there is no formal definition of wikitext, which makes parsing very difficult and burdensome.
In this thesis, we present a system that lets the researcher automatically build a richly annotated corpus containing the information most commonly used in research projects. To this end, we built our own wikitext parser based on the original converter used by Wikipedia itself to convert wikitext into HTML. The system stores all data in a relational database, which allows for efficient access and extensive retrieval functionality.

Beteiligte Einrichtungen

Details

Dokumentenart	Hochschulschrift der Universität Regensburg (Abschlussarbeit zum Master)
Open Access Art:	Primärpublikation
Datum	11 Oktober 2010
Begutachter (Erstgutachter)	Prof. Dr. Christian Wolff und Prof. Dr. Rainer Hammwöhner
Tag der Prüfung	15 Dezember 2009
Institutionen	Sprach- und Literatur- und Kulturwissenschaften > Institut für Information und Medien, Sprache und Kultur (I:IMSK) > Lehrstuhl für Informationswissenschaft (Prof. Dr. Udo Kruschwitz) Informatik und Data Science > Fachbereich Menschzentrierte Informatik > Lehrstuhl für Informationswissenschaft (Prof. Dr. Udo Kruschwitz) Sprach- und Literatur- und Kulturwissenschaften > Institut für Information und Medien, Sprache und Kultur (I:IMSK) > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff) Informatik und Data Science > Fachbereich Menschzentrierte Informatik > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff)
Themenverbund	Nicht ausgewählt
Stichwörter / Keywords	Verarbeitung natürlicher Sprache, NLP, Wikipedia, Korpus, Textkorpus
Dewey-Dezimal-Klassifikation	000 Informatik, Informationswissenschaft, allgemeine Werke > 030 Enzyklopädien 000 Informatik, Informationswissenschaft, allgemeine Werke > 020 Bibliotheks- und Informationswissenschaft 400 Sprache > 420 Englisch 000 Informatik, Informationswissenschaft, allgemeine Werke > 004 Informatik
Status	Veröffentlicht
Begutachtet	Ja, diese Version wurde begutachtet
An der Universität Regensburg entstanden	Ja
URN der UB Regensburg	urn:nbn:de:bvb:355-epub-115338
Dokumenten-ID	11533

Aufbau eines wissenschaftlichen Textcorpus auf der Basis der Daten der englischsprachigen Wikipedia

Zusammenfassung (Deutsch)

Übersetzung der Zusammenfassung (Englisch)

Beteiligte Einrichtungen

Details

Bibliographische Daten exportieren

Downloadstatistik

Downloads

Weitere Literatur (mittels CORE)