Unsere Sicht auf DQ
In Hublify sollten immer pro Datenbereich (Dataset) die Data Quality Check Sets gleich bzw. ähnlich strukturiert und benannt sein.
Vorschlag: Completeness, Consistency, Richness.
Damit sollte ein Hublify-User seine Daten typischerweise schon sehr gut überprüft bekommen.
Check-Set "Completeness"
Folgende Faktoren fassen wir unter dem Check-Set 'Completeness' zusammen:
- Vollständigkeit (Completeness): Ein Datensatz muss alle notwendigen Attribute enthalten. Attribute müssen alle notwendigen Daten enthalten.
Das Check-Set prüft die Vollständigkeit der Daten.
Check-Set "Consistency"
Folgende Faktoren fassen wir unter dem Check-Set 'Consistency' zusammen:
- Konsistenz (Consistency): Ein Datensatz darf in sich und zu anderen Datensätzen keine Widersprüche aufweisen.
- Korrektheit (Correctness): Die Daten müssen mit der Realität übereinstimmen.
- Genauigkeit (Accuracy): Die Daten müssen in der jeweils geforderten Exaktheit vorliegen.
- Einheitlichkeit (Uniformity): Die Informationen eines Datensatzes müssen einheitlich strukturiert sein. Das heißt, eine Menge von Daten wird fortlaufend einheitlich präsentiert.
- Redundanzfrei (Nonredundant): Innerhalb der Datensätze dürfen keine Dubletten vorkommen.
- Aktualität (Timeliness): Alle Datensätze müssen jeweils dem aktuellen Zustand der abgebildeten Realität entsprechen. Bsp.: Ist URL noch erreichbar?
Das Check-Set überprüft formale Kriterien zu Konsistenz, Korrektheit, Genauigkeit, Einheitlichkeit, Redundanz und Aktualität.
Check-Set "Richness"
Folgende Faktoren fassen wir unter dem Check-Set 'Richness' zusammen:
- Relevanz (Relevancy): Der Informationsgehalt von Datensätzen muss den jeweiligen Informationsbedarf erfüllen.
- Verständlichkeit (Understandability): Die Datensätze müssen in ihrer Begrifflichkeit und Struktur mit den Vorstellungen der Informationsempfänger (z.B. Fachbereiche) übereinstimmen.
Das Check-Set analysiert die inhaltliche Detailtiefe, Verständlichkeit und Relevanz.