Direkt zum Inhalt

Bauer, Andreas

Information filtering in high velocity text streams using limited memory - An event-driven approach to text stream analysis

Bauer, Andreas (2016) Information filtering in high velocity text streams using limited memory - An event-driven approach to text stream analysis. Dissertation, Universität Regensburg.

Veröffentlichungsdatum dieses Volltextes: 30 Nov 2016 08:31
Hochschulschrift der Universität Regensburg


Zusammenfassung (Englisch)

This dissertation is concerned with the processing of high velocity text streams using event processing means. It comprises a scientific approach for combining the area of information filtering and event processing. In order to be able to process text streams within event driven means, an event reference model was developed that allows for the conversion of unstructured or semi-structured text ...

This dissertation is concerned with the processing of high velocity text streams using event processing means. It comprises a scientific approach for combining the area of information filtering and event processing. In order to be able to process text streams within event driven means, an event reference model was developed that allows for the conversion of unstructured or semi-structured text streams into discrete event types on which event processing engines can operate. Additionally, a set of essential reference processes in the domain of information filtering and text stream analysis were described using event-driven concepts. In a second step, a reference architecture was designed that described essential architectural components required for the design of information ltering and text stream analysis systems in an event-driven manner. Further to this, a set of architectural patterns for building event driven text analysis systems was derived that support the design and implementation of such systems. Subsequently, a prototype was built using the theoretic foundations. This system was initially used to study the effect of sliding window sizes on the properties of dynamic sub-corpora. It could be shown that small sliding window based corpora are similar to larger sliding windows and thus can be used as a resource-saving alternative. Next, a study of several linguistic aspects of text streams was undertaken that showed that event stream summary statistics can provide interesting insights into the characteristics of high velocity text streams. Finally, four essential information filtering and text stream analysis components were studied, viz. filter policies, term weighting, thresholds and query expansion. These were studied using three temporal search profile types and were evaluated using standard information retrieval performance measures. The goal was to study the efficiency of traditional as well as new algorithms within the given context of high velocity text stream data, in order to provide advise which methods work best. The results of this dissertation are intended to provide software architects and developers with valuable information for the design and implementation of event-driven text stream analysis systems.

Übersetzung der Zusammenfassung (Deutsch)

Diese Dissertation befasst sich mit der Nutzbarmachung von ereignisverarbeitenden Methoden für die Verarbeitung von hochfrequenten Textdatenströmen. Um ereignisverarbeitende Methoden auf Textdatenströme anwenden zu können, musste deren Operationalisierbarkeit in diesem Kontext zunächst hergestellt werden. Hierfür wurde ein Ereignisreferenzmodell entwickelt, das es erlaubt Textdatenströme auf ...

Diese Dissertation befasst sich mit der Nutzbarmachung von ereignisverarbeitenden Methoden für die Verarbeitung von hochfrequenten Textdatenströmen. Um ereignisverarbeitende Methoden auf Textdatenströme anwenden zu können, musste deren Operationalisierbarkeit in diesem Kontext zunächst hergestellt werden. Hierfür wurde ein Ereignisreferenzmodell entwickelt, das es erlaubt Textdatenströme auf dedizierte Ereignistypen abzubilden und dann mit ereignisverarbeitenden Methoden zu verarbeiten. Dieses Referenzmodell wurde anhand wissenschaftlich akzeptierter Standards entwickelt und mit einem Fragebogen empirisch evaluiert. Zusätzlich wurden verschiedene Referenzprozesse aus dem Bereich Informationsfilterung und Textstromanalyse mit Hilfe ereignisbasierter Konzepte beschrieben. Im nächsten Schritt wurde eine Referenzarchitektur entworfen, die die nötigen Softwarearchitekturkomponenten in diesem Kontext beschreibt und strukturiert. Weiterhin wurde ein Basissatz an Architekturmustern zur Gestaltung von ereignisbasierten Systemen beschrieben. Basierend auf diesen theoretischen Konstrukten wurde ein ereignisbasiertes System zur Informationsfilterung und Textstromanalyse prototypisch umgesetzt. Dieses System wurde dann verwendet um zunächst zu untersuchen, welchen Einfluss die Größe gleitender Fenster auf die Eigenschaften eines dynamischen Subkorpus hat. Es konnte gezeigt werden, dass Korpora basierend auf kleinen, gleitenden Zeitfenstern dieselben Eigenschaften aufweisen wie größere und somit als eine ressourcenschonende Alternative verwendet werden können. Danach wurde das System verwendet, um verschiedene linguistische Merkmale der untersuchten Referenzkorpora zu untersuchen. Dabei konnte anschaulich gezeigt werden, dass sich basierend auf den gleitenden Fenster interessante Aspekte hochfrequenter Textdatenströmen extrahieren lassen. Im Anschluss wurden vier zentrale Komponenten im Bereich der Informationsfilterung untersucht: Filterregeln, Termgewichtung, Schwellwertmethoden und Abfrageerweiterungsmethoden. Diese Methoden wurde hinsichtlich ihrer Effizienz unter Verwendung gängiger Evaluierungsmetriken untersucht. Die Ergebnisse der vorliegenden Dissertation dienen dazu Softwarearchitekten und Entwicklern im Umfeld der Verarbeitung von Textdatenströmen bei der Planung und Implementierung von entsprechenden Systemen zu unterstützen.


Beteiligte Einrichtungen


Details

Bibliographische Daten exportieren

Nur für Besitzer und Autoren: Kontrollseite des Eintrags

nach oben