Was ist ein Data Warehouse? Diese Frage wurde nun beantwortet. Jetzt folgt ein Beitrag, welcher um den Nutzen dieser Struktur bestellt ist.

In diesem letzten Beitrag soll es um die anwendbaren Operationen gehen, welche den Implementierungsaufwand eines DWH rechtfertigen.

Hier gehts zu den vorherigen Teilen: Teil 1, Teil 2, Teil 3 und Teil 4.


Was ist ein Data Warehouse?
Mögliche OLAP-Operationen
OLAP-Operationen

Nachdem die Konstruktion eines Data Marts behandelt wurde, werden nun die möglichen Analyse-Operationen erläutert, welcher ein solcher OLAP Datenwürfel erlaubt. Eine Übersicht ist in Abbildung 3 zu sehen. In der oberen Reihe sind zwei Möglichkeiten dargestellt, welche zur exakten Analyse eines bestimmten Sachverhalts genutzt werden können. Ausgangspunkt der Analyse ist in (a) zu sehen und beschreibt einen Datenwürfel mit den Dimensionen Produkt, Filiale und Zeit. Es lässt sich ein bestimmter Zeitpunkt, in diesem Fall ein einzelner Tag, betrachten, indem diese Scheibe herausgeschnitten wird; dies ist in (b) zu sehen und wird „Slicing“ genannt. Diese Einschränkungen lassen sich auch auf die anderen Dimensionen anwenden, womit ein kleiner Würfel entsteht, welcher eine spezialisierte Fragestellung beantworten kann. Zu sehen ist dies in (c); dieses Verfahren nennt sich „Dicing“.

Neben den Fragestellungen zu exakten Sachverhalten, lassen sich auch allgemeinere Betrachtungen des Datenwürfels vornehmen, wie in der unteren Reihe zu sehen ist. Ausgangspunkt ist der Würfel in (d), welcher zwei Filialen und deren Produkte hinsichtlich jedes Quartals auf der Zeitebene zeigt. Ein „Drill-Down“ bedeutet, dass die Granularität des Würfels verringert wird; also wechselt die zeitliche Ebene von Quartalen zu einzelnen Monaten oder Tagen, was in (e) zu sehen ist. Diese Operation ist auch in die andere Richtung möglich, um die Granularität zu erhöhen und anstelle der Quartale nun Werte für Jahre analysieren zu können; dies wird „Drill-Up“ genannt und ist in (f) zu sehen.

Abschließend muss im Rahmen dieser Diskussion noch erwähnt werden, dass die Datenmengen in einem DWH Ausmaße von hunderten Terabyte bis hin zu Petabyte haben können. Bei kleineren Systemen würde eine einzelne Datenbank ausreichen, so könnte es bei solch großen Datenmengen unter Umständen unmöglich sein, dort Anfragen in angemessener Zeit zu beantworten. Im Rahmen solch großer Datenmengen spricht man auch von „Big Data“, wobei oftmals verteilte Systeme oder Cloud-Speicher eingesetzt wird[1]. Diese Überlegungen sollten bei der Planung eines DWH mit einbezogen werden. Es ist in den meisten Fällen sinnvoll, einen Speicher zu wählen, der mit der vorhandenen Datenmenge skaliert werden kann.


Quelle der Abbildung: Jakob, M., Schwarz, H., & Kaiser, F. (2006). Technologie-Roadmap. Stuttgart: Fraunhofer IRB-Verlag.

[1] Siehe (Papp, S., Weidinger, W., Meir-Huber, M., Ortner, B., Langs, G., & Wazir, R. (2019). Handbuch Data Science: Mit Datenanalyse und Machine Learning Wert aus Daten generieren. München: Carl Hanser Verlag, Haber, P. (2021). Data Science Analytics and Applcations: Proceedings of the 3rd International Data Science Conference iDSC2020. Wiesbaden: Springer Fachmedien Wiesbaden oder Keimer, I. (2020). Die Digitalisierung der Controlling-Funktion. Wiesbaden: Springer, Gabler.

Leave a Comment