In dieser Reihe von Beiträgen wird die Frage: Was ist ein Data Warehouse? Erläutert.

Neben dem theoretischen Wissen werden Vor- bzw. Nachteile genannt und welche Operationen so ein Konstrukt erlaubt.


Ein Data Warehouse (DWH) beschreibt eine gesamte Architektur, welche es ermöglicht, Daten zu sammeln und diese in einheitlicher Form für Analysen und Berichte zur Verfügung zu stellen. Das Ziel ist eine datengestützte Entscheidungsfindung und nicht nur die Speicherung von Daten, wie es bei einer normalen Datenbank der Fall ist[1]. Der über begriffliche Fachbereich nennt sich Business Intelligence (BI) und umfasst neben dem DWH noch weitere Bereiche[2]. Im folgenden wird zunächst der allgemeine Aufbau der Architektur erläutert und dessen Besonderheiten herausgestellt. In diesem Zuge werden die Herausforderungen und möglichen Probleme bei der Entwicklung einer solchen Struktur thematisiert.

Ein DWH zeichnet sich durch dadurch aus, dass es Subjekt-orientiert und integriert ist, wobei die Daten nicht flüchtig, sondern historisiert sind[3]. Auf diese Eigenschaften wird folgend näher eingegangen, wobei die Herausforderungen bei der tatsächlichen Umsetzung besonders hervorgehoben werden.

Subjekt-orientiert bedeutet, dass anstelle eines funktionalen Vorgangs, also einzelner operativer Bereiche, das betrieblich relevante Subjekt im Mittelpunkt steht – im Falle einer Versicherung beispielsweise wären die einzelnen Bereiche von Auto- über Lebensversicherungen operative Bereiche, wobei eines der gemeinsamen Subjekte der Kunde wäre. Dies soll das allgemeine Vorgehen verdeutlichen, da jedes Unternehmen sein eigenes Set an Subjekten besitzt. Jedes für das DWH ausgewählte Subjekt wird physisch in einer Serie von zusammenhängenden Tabellen dargestellt, wobei physisch nicht impliziert, dass diese Daten auf dem gleichen Speicher liegen müssen. Die Daten können in verschiedenen Datenbanken und anderen Speichermedien gelagert werden und sind dennoch Teil des DWH. Für die Umsetzung bedeutet dies, dass es einen Primärschlüssel für jedes Subjekt gibt, welcher als Fremdschlüssel in alle verknüpften Tabellen mit eingeht. Wichtig ist hierbei zu erwähnen, dass jede vorhandene Tabelle ein zeitliches Attribut beinhalten muss, um den Aspekt der Historie zu gewährleisten. Jede verknüpfte Tabelle kann einen eigenen zeitlichen Horizont besitzen, was im Falle eines Händlers zu Daten von einzelnen Käufen bis hin zu monatlichen Berichten reicht. Da jede dieser Informationen Teil des gleichen Subjekts ist, müssen diese dementsprechend gepflegt werden, damit spätere Analysen möglich werden, welche diese Dimension mit einbeziehen[4].

Der nächste Punkt beschreibt die Integrität der Daten. Da die Informationen aus verschiedenen Quellen stammen und stark heterogen sein können, ist dieser Schritt entscheidend, damit die Daten, welche in das DWH geladen werden, konsistent sind. Es muss zum Beispiel festgehalten werden, in welcher Maßeinheit – Meter oder Fuß als Beispiel – bestimmte Werte gespeichert werden sollen oder welche Quelle gewählt werden soll, falls es mehrere identische Tupel gibt[5].

Die Flüchtigkeit von Daten bedeutet in diesem Kontext, dass diese nicht geändert werden in einem DWH. Im operationalen Geschäft werden einzelne Tupel regelmäßig eingefügt, geändert oder gelöscht. In einem DWH werden die Daten als statischer Schnappschuss gespeichert. Sollten nun geänderte Daten in das DWH geladen werden, so wird ein neuer Schnappschuss erstellt und dort gespeichert, wobei der alte Eintrag unverändert erhalten bleibt. Dies führt unweigerlich dazu, dass sich enorme Datenmengen über die Zeit hinweg ansammeln können.

Als letzter Punkt bleibt die Historie der Daten. Es wurde eingangs schon erwähnt, dass jede Tabelle ein Element der Zeit enthalten muss. Neben den dort genannten Gründen ist noch zu sagen, dass es nur so möglich ist zu sagen, wann oder in welchem Zeitraum, dieser Eintrag aktuell war.

Hier geht es weiter zu Teil 2 der Serie.


[1] Vergleiche Farkisch, K. (2011). Data-Warehouse-Systeme kompakt. Berlin Heidelberg: Springer-Verlag.

[2] Siehe auch Baars, H., & Kemper, H.-G. (2021). Business Intelligence & Analytics – Grundlagen und praktische Anwendungen. Wiesbaden: Springer Vieweg oder Müller, R. M., & Lenz, H.-J. (2013). Business Intelligence. Berlin Heidelberg: Springer-Verlag.

[3] Inmon, W. (2005). Building the Data Warehouse. Indianapolis, Indiana: Wiley Publishing, Inc. S. 29ff

[4] Inmon, W. (2005). Building the Data Warehouse. Indianapolis, Indiana: Wiley Publishing, Inc. S. 35ff

[5] Inmon, W. (2005). Building the Data Warehouse. Indianapolis, Indiana: Wiley Publishing, Inc. S. 31

Leave a Comment