Was ist ein Data Warehouse?

In diesem Teil dreht sich alles um die Architektur eines DWH.

Für alle, die hier eingestiegen sind: hier die Links zu Teil 1 und Teil 2.


Was ist ein Data Warehouse? Die Architektur visualisiert.
Architektur eines DWH

Die generelle Struktur eines DWH ist in der Abbildung zu sehen. Diese skizziert den allgemeinen Ablauf, welcher hinter der Architektur steckt. Der erste Abschnitt auf der linken Seite zeigt einige mögliche Quellen für die Informationen. Diese sind naturgemäß vielfältig und reichen von einzelnen Dokumenten im PDF- oder Excel-Format, über vorhandene Datenbanken, bis hin zu externen Quellen, welche über eine API angebunden werden können. Die bereits besprochene Integration in das DWH wird als ETL-Prozess bezeichnet und beschreibt den kompletten Vorgang vom Sammeln, Anpassen und Speichern der Daten in das DWH. Visualisiert ist dies im zweiten Abschnitt der Abbildung. In diesem Zuge können die Daten noch mit Metadaten[1] angereichert werden, falls gewünscht. Der dritte Abschnitt beschreibt die Struktur des Speichers. Das DWH ist typischerweise nicht für schnelle Zugriffszeiten im Millisekunden Bereich konzipiert. Da es in manchen Bereichen eines Unternehmens aber erforderlich sein kann, gibt es die optionale Struktur eines ODS (Operational Data Storage). Dieser Speicher beinhaltet zumeist einen kleinen Ausschnitt des DWH, bietet aber auf diesen eine hohe Zugriffsgeschwindigkeit[2].

Das DWH selbst beinhaltet i.d.R. Informationen über das gesamte Unternehmen, da es als allgemeine Datenbasis für alle Bereiche dienen soll. Jede Abteilung hat aber unterschiedliche Anforderungen an die Daten bezüglich der zu erstellenden Analysen – so hat der Verkauf einen anderen Bedarf an Informationen als das Marketing. Aus diesem Grund ist es zumeist sinnvoll, kleinere Extrakte des DWH zu erstellen, welche die Anforderungen an die nötigen Daten erfüllen, aber alle anderen, nicht relevanten Daten ausschließen. Diese spezialisierteren Strukturen werden Data Marts genannt und bieten durch die geringere Größe den Vorteil einer schnelleren Analyse. Ferner können Data Marts beliebig oft angepasst, erstellt oder gelöscht werden und lassen sich somit an den jeweiligen Bedarf anpassen, ohne die zugrunde liegende Datenbasis, das DWH, zu ändern. Dies erlaubt durchgehend konsistente und vergleichbare Analyseergebnisse, da jedes Data Mart auf dieselben Daten zugreift. Der letzte Abschnitt in dem Schaubild beschreibt die Möglichkeiten, wie das DWH letztlich genutzt werden kann. Als Erstes seien die Möglichkeiten des „Data-Minings“ und der explorativen Datenanalyse genannt. Die Struktur der Daten in einem DWH entsprechen den Anforderungen, welche erfüllt sein müssen, um solche Analysen zu ermöglichen: Die Daten müssen bereinigt, integriert, sowie organisiert sein und eine Historie aufweisen. Diese Art der Analyse hat keine ursprüngliche Fragestellung, welche beantwortet werden soll. Es soll anhand einer großen Masse an solchen Daten versucht werden, bisher noch unbekannte Muster und Zusammenhänge zu identifizieren, um somit neue Informationen zu gewinnen[3]. Siehe auch [4] oder [5]. Die explorative Datenanalyse beschreibt hierbei einen manuellen, benutzergesteuerten Vorgang, wohingegen bei einer Automatisierung von „Data-Mining“ gesprochen wird.

Hier geht es weiter mit Teil 4.


Quelle der Abbildung: https://wiki.hslu.ch/controlling/Data_Warehouse

[1] Zusätzliche Informationen, welche nicht direkt aus der Quelle stammen

[2] Für weitere Informationen siehe Inmon, W. (2005). Building the Data Warehouse. Indianapolis, Indiana: Wiley Publishing, Inc. S. 429ff

[3] Inmon, W. (2005). Building the Data Warehouse. Indianapolis, Indiana: Wiley Publishing, Inc. S. 50

[4] Runkler, T. A. (2015). Data Mining: Modelle und Algorithmen intelligenter Datenanalyse. Wiesbaden: Springer Fachmedien WIesbaden.

[5] Zeller, E., & Fritz, J. (2021). Qualität durch Digitalisierung: Qualitätsmanagement mit KI, Data Mining, Chatbots und Co. München: Carl Hanser.

Leave a Comment