Dichte-basiertes verteiltes Clustering

Januzaj, Eshref (2024) Dichte-basiertes verteiltes Clustering. Dissertation, Universität Regensburg.

Veröffentlichungsdatum dieses Volltextes: 18 Jul 2024 11:04
Hochschulschrift der Universität Regensburg
DOI zum Zitieren dieses Dokuments: 10.5283/epub.58593

Download ( PDF | 8MB)

Lizenz: Veröffentlichungsvertrag für Publikationen ohne Print on Demand

Zusammenfassung (Deutsch)

In einer modernen Gesellschaft spielen Daten eine zentrale Rolle. Durch die Vernetzung von Forschung und Entwicklung, Wirtschaft, Industrie und anderen Bereichen entstehen kontinuierlich sehr große Datenmengen. Sie sollen nicht nur verwaltet und gespeichert, sondern auch ausgewertet werden. Zur Analyse von Daten bieten sich die Methoden und Algorithmen aus Data Mining an. Clustering zählt zum Beispiel dazu.
Klassische Ansätze setzen voraus, dass die Daten in einer zentralen Datenbank
integriert vorliegen müssen, bevor sie ausgewertet werden können.
Eine einfache Integration von verteilten Daten ist aber aus mehreren Gründen nicht immer möglich. Das kann an das Datenvolumen oder an die Übertragungskosten, aber auch an mögliche Restriktionen wie Datenschutz und Datensicherheit liegen (manche Daten dürfen die Institution, in der sie entstanden sind, erst gar nicht verlassen).
Neue Methoden sind daher notwendig, um die verteilten Daten zu analysieren, ohne sie selbst integrieren zu müssen.
Die vorliegende Arbeit behandelt genau diese komplexe Aufgabe. Dafür wurde eine neue Clustering-Methode entwickelt, die auf verteiltes Data Mining basiert. Zur praktischen Umsetzung der Methode wurden drei Algorithmen entwickelt: DBDC, EKM und SDBDC. Sie alle basieren auf dichte-basiertes Clustering und erweitern dieses um den verteilten Fall. Die Ergebnisse der hier entwickelten Algorithmen wurden mit dem zentralisierten Ansatz des dichte-basierten Clustering verglichen. Ihre Evaluierung hat gezeigt, dass das verteilte dichte-basierte Clustering viel effizienter als das zentralisierte Clustering arbeitet. Darüber hinaus liefert der verteilte Ansatz eine sehr hohe
Clustering-Qualität und ermöglicht somit eine breite Verwendung an verschiedenen realen Anwendungsfällen.

Übersetzung der Zusammenfassung (Englisch)

In a modern society, data plays a central role. Very large amounts of data are
continuously generated through the networking of research and development, business, industry and of other domains. These increasing amount of data should not only be managed and stored, but also analyzed. Their analysis can be performed by applying data mining methods and algorithms, such as clustering. Classical approaches expect the data to be first integrated into a central database, in order to be able to analyze it.
However, a simple integration of distributed data is not always possible. There are several reasons, such as the data volume or the transmission costs, but also, due to possible restrictions, data privacy and security issues (some data may not even leave the institution where it originated). New methods are therefore required, in order to fascilitate the analysis of distributed data without even having to integrate the data itself.
This thesis provides exactly a solution to this complex task. Thus, a new clustering method, based on distributed data mining, has been developed. Its practical implementation led to the development of three algorithms: DBDC, EKM and SDBDC. All algorithms are based on density-based custering and extend its applicability on a distributed context. To evaluate the developed algorithms, their results were compared with the centralized density-based clustering approach. The evaluation results show that distributed density-based clustering is much more efficient than centralized
clustering. Furthermore, the distributed approach yields very high-quality clustering and enables a broad use in different real-world use cases.

Beteiligte Einrichtungen

Sprach- und Literatur- und Kulturwissenschaften > Institut für Information und Medien, Sprache und Kultur (I:IMSK) > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff) Informatik und Data Science > Fachbereich Menschzentrierte Informatik > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff)
Browse Publikationen

Details

Dokumentenart	Hochschulschrift der Universität Regensburg (Dissertation)
Open Access Art:	Primärpublikation
Datum	18 Juli 2024
Begutachter (Erstgutachter)	Prof. Dr. Christian Wolff und Prof. Dr. Peter Mandl
Tag der Prüfung	23 November 2021
Institutionen	Sprach- und Literatur- und Kulturwissenschaften > Institut für Information und Medien, Sprache und Kultur (I:IMSK) > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff) Informatik und Data Science > Fachbereich Menschzentrierte Informatik > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff)
Themenverbund	Nicht ausgewählt
Stichwörter / Keywords	Verteiltes Data Mining, Verteiltes Clustering, dichte-basiertes Clustering, Wissensintegration, verteilte Daten, heterogene Daten
Dewey-Dezimal-Klassifikation	000 Informatik, Informationswissenschaft, allgemeine Werke > 004 Informatik
Status	Veröffentlicht
Begutachtet	Ja, diese Version wurde begutachtet
An der Universität Regensburg entstanden	Ja
URN der UB Regensburg	urn:nbn:de:bvb:355-epub-585930
Dokumenten-ID	58593

Bibliographische Daten exportieren

Nur für Besitzer und Autoren: Kontrollseite des Eintrags

Downloadstatistik

Weitere Literatur (mittels CORE)

nach oben