Unsere Sicht auf DQ

In Hublify sollten immer pro Datenbereich (Dataset) die Data Quality Check Sets gleich bzw. ähnlich strukturiert und benannt sein.

Vorschlag: Completeness, Consistency, Richness.

Damit sollte ein Hublify-User seine Daten typischerweise schon sehr gut überprüft bekommen.

Folgende Faktoren fassen wir unter dem Check-Set 'Completeness' zusammen:

Vollständigkeit (Completeness): Ein Datensatz muss alle notwendigen Attribute enthalten. Attribute müssen alle notwendigen Daten enthalten.

Das Check-Set prüft die Vollständigkeit der Daten.

Folgende Faktoren fassen wir unter dem Check-Set 'Consistency' zusammen:

Konsistenz (Consistency): Ein Datensatz darf in sich und zu anderen Datensätzen keine Widersprüche aufweisen.
Korrektheit (Correctness): Die Daten müssen mit der Realität übereinstimmen.
Genauigkeit (Accuracy): Die Daten müssen in der jeweils geforderten Exaktheit vorliegen.
Einheitlichkeit (Uniformity): Die Informationen eines Datensatzes müssen einheitlich strukturiert sein. Das heißt, eine Menge von Daten wird fortlaufend einheitlich präsentiert.
Redundanzfrei (Nonredundant): Innerhalb der Datensätze dürfen keine Dubletten vorkommen.
Aktualität (Timeliness): Alle Datensätze müssen jeweils dem aktuellen Zustand der abgebildeten Realität entsprechen. Bsp.: Ist URL noch erreichbar?

Das Check-Set überprüft formale Kriterien zu Konsistenz, Korrektheit, Genauigkeit, Einheitlichkeit, Redundanz und Aktualität.

Folgende Faktoren fassen wir unter dem Check-Set 'Richness' zusammen:

Relevanz (Relevancy): Der Informationsgehalt von Datensätzen muss den jeweiligen Informationsbedarf erfüllen.
Verständlichkeit (Understandability): Die Datensätze müssen in ihrer Begrifflichkeit und Struktur mit den Vorstellungen der Informationsempfänger (z.B. Fachbereiche) übereinstimmen.

Das Check-Set analysiert die inhaltliche Detailtiefe, Verständlichkeit und Relevanz.