Unsere Sicht auf DQ

In Hublify sollten immer pro Datenbereich (Dataset) die Data Quality Check Sets gleich bzw. ähnlich strukturiert und benannt sein.

Vorschlag: Completeness, Consistency, Richness.

Damit sollte ein Hublify-User seine Daten typischerweise schon sehr gut überprüft bekommen.

Check-Set "Completeness"

Folgende Faktoren fassen wir unter dem Check-Set 'Completeness' zusammen:

  • Vollständigkeit (Completeness): Ein Datensatz muss alle notwendigen Attribute enthalten. Attribute müssen alle notwendigen Daten enthalten. 

Das Check-Set prüft die Vollständigkeit der Daten.

Check-Set "Consistency"

Folgende Faktoren fassen wir unter dem Check-Set 'Consistency' zusammen:

  • Konsistenz (Consistency): Ein Datensatz darf in sich und zu anderen Datensätzen keine Widersprüche aufweisen.
  • Korrektheit (Correctness): Die Daten müssen mit der Realität übereinstimmen.
  • Genauigkeit (Accuracy): Die Daten müssen in der jeweils geforderten Exaktheit vorliegen.
  • Einheitlichkeit (Uniformity): Die Informationen eines Datensatzes müssen einheitlich strukturiert sein. Das heißt, eine Menge von Daten wird fortlaufend einheitlich präsentiert.
  • Redundanzfrei (Nonredundant): Innerhalb der Datensätze dürfen keine Dubletten vorkommen.
  • Aktualität (Timeliness): Alle Datensätze müssen jeweils dem aktuellen Zustand der abgebildeten Realität entsprechen. Bsp.: Ist URL noch erreichbar?

  Das Check-Set überprüft formale Kriterien zu Konsistenz, Korrektheit, Genauigkeit, Einheitlichkeit, Redundanz und Aktualität.

Check-Set "Richness"

Folgende Faktoren fassen wir unter dem Check-Set 'Richness' zusammen:

  • Relevanz (Relevancy): Der Informationsgehalt von Datensätzen muss den jeweiligen Informationsbedarf erfüllen.
  • Verständlichkeit (Understandability): Die Datensätze müssen in ihrer Begrifflichkeit und Struktur mit den Vorstellungen der Informationsempfänger (z.B. Fachbereiche) übereinstimmen. 

Das Check-Set analysiert die inhaltliche Detailtiefe, Verständlichkeit und Relevanz.