Was ist ein Data Warehouse? Teil 1 zeigte bereits einen groben Überblick, was ein DWH ist und wodurch es sich auszeichnet.
In diesem Teil werden zwei weitere Teilaspekte näher beschrieben: Granularität und Partitionierung der Daten.
Neben diesen Grund-Charakteristika eines DWH gibt es weitere Faktoren bei der Entwicklung zu berücksichtigen. Die schwierigsten Entscheidungen müssen bei der Wahl der Granularität der Daten und dessen Partitionierung getroffen werden.
Die Granularität sagt aus, in welcher Detailtiefe die Daten gespeichert werden, wobei eine niedrige Granularität für einzelne Transaktionen stehen kann, und eine hohe für eine monatliche Zusammenfassung. Das richtige Maß kann nur gefunden werden, sofern die Anforderungen an die spätere Analyse klar sind. Eine höhere Granularität hat die Vorteile, dass deutlich weniger Speicher genutzt werden muss und bei Suchanfragen weniger Leistung benötigt wird, um diese zu beantworten. Der Nachteil dabei ist, dass nicht alle möglichen Fragen beantwortet werden können, da es sich um summierte Werte handelt. Auf der niedrigsten Granularität verhält es sich exakt konträr dazu: Es kann jede Fragestellung beantwortet werden, dies geht aber zu Lasten der Performance und des genutzten Speichers. Es kann in diesem Zuge sinnvoll sein, mehr als ein Level der Granularität aufzubauen. Als Beispiel können alle Daten innerhalb der ersten 30 Tage in niedrigster Granularität vorliegen, um sie im Anschluss zusammenzufassen und somit speichereffizienter in höherer Granularität abzulegen.
Eine weitere Herausforderung in diesem Zusammenhang besteht bei der Integration der Quelldaten. Diese kommen zumeist in einer falschen Granularität an und müssen erst mühsam transformiert werden, bevor diese in das DWH geladen werden können[1]. Die Probleme dabei wurden eingangs bereits erläutert. Es muss an dieser Stelle noch ergänzt werden, dass die Integration in den meisten Fällen die größte Herausforderung darstellt und der zeitliche Aufwand ebenso hoch ist, da kaum eine Quelle in der richtigen Form vorliegt, welche für das DWH benötigt wird.
Die andere Entscheidung bezüglich des DB-Designs kann ebenfalls eine Herausforderung darstellen. Es bedarf keiner großen Erklärung, dass mehrere kleine Partitionen besser verwaltet werden können, als eine Große. Diese Aufteilung passiert zumeist auf DBMS oder Applikationsebene, wobei die Aufteilung selbst höchst individuell ist und an die Gegebenheiten angepasst werden muss.
Hier geht es weiter mit Teil 3.
[1] Siehe auch Azevedo, A., & Santos, M. F. (2021). Integration Challenges for Analytics, Business Intelligence, and Data Mining. Hershey PA, USA: IGI Global.