Nur für Besitzer und Autoren: Kontrollseite des Eintrags

Restat, Valerie ; Diestelkämper, Indra ; Klettke, Meike

; Störl, Uta

FONDUE - Fine-Tuned Optimization: Nurturing Data Usability & Efficiency

Restat, Valerie, Diestelkämper, Indra, Klettke, Meike

und Störl, Uta (2025) FONDUE - Fine-Tuned Optimization: Nurturing Data Usability & Efficiency. Journal of Big Data 12 (1).

Veröffentlichungsdatum dieses Volltextes: 10 Jul 2025 09:04
Artikel
DOI zum Zitieren dieses Dokuments: 10.5283/epub.77126

Veröffentlichte Version
Download ( PDF | 2MB)

Lizenz: Creative Commons Namensnennung 4.0 International

Zusammenfassung

To provide good results and decisions in data-driven systems, data quality must be ensured as a primary consideration. An important aspect of this is data cleaning. Although many different algorithms and tools already exist for data cleaning, an end-to-end data quality solution is still needed. In this paper, we present FONDUE, our vision of a well-founded end-to-end data quality optimizer. In contrast to many studies that consider data cleaning in the context of machine learning, our approach focuses on various scenarios, such as when preprocessing and downstream analysis are separated. As an adaptive and easily extendable framework, FONDUE operates similarly to proven methods of database query optimization. Analogously, it consists of the following parts: Rule-based optimization, where the appropriate data cleaning algorithms are selected based on use case constraints, optimizer hints in the form of best practices, and cost-based optimization, where the costs are measured in terms of data quality. Accordingly, the result is an optimized data cleaning pipeline. The choice of different optimization goals enables further flexibility, e.g. for environments with limited resources. As a first building block of FONDUE, we present CheDDaR, which is used to detect errors and measure data quality. Both are important tasks for improving data quality with FONDUE.

Alternative Links zum Volltext

Beteiligte Einrichtungen

Informatik und Data Science > Allgemeine Informatik > Data Engineering (Prof. Dr.-Ing. Meike Klettke)
Browse Publikationen

Details

Dokumentenart

Artikel

Titel eines Journals oder einer Zeitschrift

Journal of Big Data

Verlag:

Springer

Open Access Art:

CC-Lizenz

Band:

Nummer des Zeitschriftenheftes oder des Kapitels:

Datum

23 Mai 2025

Institutionen

Informatik und Data Science > Allgemeine Informatik > Data Engineering (Prof. Dr.-Ing. Meike Klettke)

Identifikationsnummer

Wert	Typ
10.1186/s40537-025-01158-x	DOI

Stichwörter / Keywords

Data quality, Data cleaning, Optimization

Dewey-Dezimal-Klassifikation

000 Informatik, Informationswissenschaft, allgemeine Werke > 004 Informatik

Status

Veröffentlicht

Begutachtet

Ja, diese Version wurde begutachtet

An der Universität Regensburg entstanden

Zum Teil

URN der UB Regensburg

urn:nbn:de:bvb:355-epub-771261

Dokumenten-ID

77126

Bibliographische Daten exportieren

Nur für Besitzer und Autoren: Kontrollseite des Eintrags

Downloadstatistik

Altmetric

Alternative Statistik (altmetrics)

Weitere Literatur (mittels CORE)

nach oben