| Download ( PDF | 8MB) | Lizenz: Veröffentlichungsvertrag für Publikationen ohne Print on Demand |
Dichte-basiertes verteiltes Clustering
Januzaj, Eshref (2024) Dichte-basiertes verteiltes Clustering. Dissertation, Universität Regensburg.Veröffentlichungsdatum dieses Volltextes: 18 Jul 2024 11:04
Hochschulschrift der Universität Regensburg
DOI zum Zitieren dieses Dokuments: 10.5283/epub.58593
Zusammenfassung (Deutsch)
In einer modernen Gesellschaft spielen Daten eine zentrale Rolle. Durch die Vernetzung von Forschung und Entwicklung, Wirtschaft, Industrie und anderen Bereichen entstehen kontinuierlich sehr große Datenmengen. Sie sollen nicht nur verwaltet und gespeichert, sondern auch ausgewertet werden. Zur Analyse von Daten bieten sich die Methoden und Algorithmen aus Data Mining an. Clustering zählt zum ...
In einer modernen Gesellschaft spielen Daten eine zentrale Rolle. Durch die Vernetzung von Forschung und Entwicklung, Wirtschaft, Industrie und anderen Bereichen entstehen kontinuierlich sehr große Datenmengen. Sie sollen nicht nur verwaltet und gespeichert, sondern auch ausgewertet werden. Zur Analyse von Daten bieten sich die Methoden und Algorithmen aus Data Mining an. Clustering zählt zum Beispiel dazu.
Klassische Ansätze setzen voraus, dass die Daten in einer zentralen Datenbank
integriert vorliegen müssen, bevor sie ausgewertet werden können.
Eine einfache Integration von verteilten Daten ist aber aus mehreren Gründen nicht immer möglich. Das kann an das Datenvolumen oder an die Übertragungskosten, aber auch an mögliche Restriktionen wie Datenschutz und Datensicherheit liegen (manche Daten dürfen die Institution, in der sie entstanden sind, erst gar nicht verlassen).
Neue Methoden sind daher notwendig, um die verteilten Daten zu analysieren, ohne sie selbst integrieren zu müssen.
Die vorliegende Arbeit behandelt genau diese komplexe Aufgabe. Dafür wurde eine neue Clustering-Methode entwickelt, die auf verteiltes Data Mining basiert. Zur praktischen Umsetzung der Methode wurden drei Algorithmen entwickelt: DBDC, EKM und SDBDC. Sie alle basieren auf dichte-basiertes Clustering und erweitern dieses um den verteilten Fall. Die Ergebnisse der hier entwickelten Algorithmen wurden mit dem zentralisierten Ansatz des dichte-basierten Clustering verglichen. Ihre Evaluierung hat gezeigt, dass das verteilte dichte-basierte Clustering viel effizienter als das zentralisierte Clustering arbeitet. Darüber hinaus liefert der verteilte Ansatz eine sehr hohe
Clustering-Qualität und ermöglicht somit eine breite Verwendung an verschiedenen realen Anwendungsfällen.
Übersetzung der Zusammenfassung (Englisch)
In a modern society, data plays a central role. Very large amounts of data are continuously generated through the networking of research and development, business, industry and of other domains. These increasing amount of data should not only be managed and stored, but also analyzed. Their analysis can be performed by applying data mining methods and algorithms, such as clustering. Classical ...
In a modern society, data plays a central role. Very large amounts of data are
continuously generated through the networking of research and development, business, industry and of other domains. These increasing amount of data should not only be managed and stored, but also analyzed. Their analysis can be performed by applying data mining methods and algorithms, such as clustering. Classical approaches expect the data to be first integrated into a central database, in order to be able to analyze it.
However, a simple integration of distributed data is not always possible. There are several reasons, such as the data volume or the transmission costs, but also, due to possible restrictions, data privacy and security issues (some data may not even leave the institution where it originated). New methods are therefore required, in order to fascilitate the analysis of distributed data without even having to integrate the data itself.
This thesis provides exactly a solution to this complex task. Thus, a new clustering method, based on distributed data mining, has been developed. Its practical implementation led to the development of three algorithms: DBDC, EKM and SDBDC. All algorithms are based on density-based custering and extend its applicability on a distributed context. To evaluate the developed algorithms, their results were compared with the centralized density-based clustering approach. The evaluation results show that distributed density-based clustering is much more efficient than centralized
clustering. Furthermore, the distributed approach yields very high-quality clustering and enables a broad use in different real-world use cases.
Beteiligte Einrichtungen
Details
| Dokumentenart | Hochschulschrift der Universität Regensburg (Dissertation) |
| Datum | 18 Juli 2024 |
| Begutachter (Erstgutachter) | Prof. Dr. Christian Wolff und Prof. Dr. Peter Mandl |
| Tag der Prüfung | 23 November 2021 |
| Institutionen | Sprach- und Literatur- und Kulturwissenschaften > Institut für Information und Medien, Sprache und Kultur (I:IMSK) > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff) Informatik und Data Science > Fachbereich Menschzentrierte Informatik > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff) |
| Themenverbund | Nicht ausgewählt |
| Stichwörter / Keywords | Verteiltes Data Mining, Verteiltes Clustering, dichte-basiertes Clustering, Wissensintegration, verteilte Daten, heterogene Daten |
| Dewey-Dezimal-Klassifikation | 000 Informatik, Informationswissenschaft, allgemeine Werke > 004 Informatik |
| Status | Veröffentlicht |
| Begutachtet | Ja, diese Version wurde begutachtet |
| An der Universität Regensburg entstanden | Ja |
| URN der UB Regensburg | urn:nbn:de:bvb:355-epub-585930 |
| Dokumenten-ID | 58593 |
Downloadstatistik
Downloadstatistik