MIDAS: Generierung großer und heterogener Testdaten zur Erkennung und Eliminierung von Duplikaten

Gefördert von: Deutsche Forschungsgemeinschaft (DFG)
Projektnummer: 495170629

Link zum Projekt auf Webseiten des Förderers

https://gepris.dfg.de/gepris/projekt/495170629

Dauer

Projektbeginn: 2022

Beteiligte Institutionen

Nicht ausgewählt

Zusammenfassung

Das Erkennen und Beseitigen von Duplikaten sind wichtige Aufgaben im Datenmanagement. Da sich die Anforderungen an ein solches Management aufgrund des zunehmenden Volumens, der Volatilität und der Verschiedenartigkeit der Daten zusehends ändern, ändern sich dementsprechend auch die Anforderungen an Duplikaterkennungs und -eliminierungs Algorithmen. Während sich die Forschung bereits intensiv mit der Anpassung dieser Algorithmen an die sich ändernden Gegebenheiten beschäftigt, sind existierende Testdatengeneratoren immer noch für kleine - meist relationale - Datensätze ausgelegt, so dass sie heutigen Anforderungen nicht mehr genügen. Da die Evaluation solcher Algorithmen jedoch ein wichtiger Bestandteil von Forschung und Praxis ist, sind neue Methoden zur Testdatengenerierung unabdingbar. In diesem Projekt wird ein neuer Ansatz zur Testdatengenerierung entwickelt und implementiert, der die Erstellung großer Testdatensätze mit komplexen Datenschemata unter Verwendung unterschiedlicher Datenmodelle und mit realistischen Fehlermustern, wie sie z.B. durch Kopiervorgänge und veraltete Werte entstehen, ermöglicht. Darüber hinaus werden wir ein Konzept zur automatischen Vorkonfiguration entwickeln und implementieren, das die Anwender dabei unterstützt, die Parametereinstellungen des resultierenden Generierungssystems an ihren jeweiligen Anwendungsfall anzupassen, um so eine effiziente und effektive Nutzung auch für unerfahrene Nutzer zu ermöglichen. Die wichtigsten Forschungsherausforderungen dieses Projekts sind: (i) das Profiling von nicht-relationalen und temporalen Daten, (ii) die effiziente Generierung von realistischen Datenhistorien zur Simulation von Kopierprozessen und veralteten Werten, (iii) die automatische und individuell anpassbare Berechnung von Parametereinstellungen (einschließlich einer anforderungsgesteuerten Transformation von Datenschemata) und (iv) die skalierbare Injektion realistischer Datenfehler und Fehlermuster in bestehende Datensätze.

Team

Principal Investigator: Fabian Panse

Publikationen

nach oben