Announcement

**Andreas Kosch** · 08.04.2008, 07:39

Hallo,

...bin allerdings noch nicht drauf gekommen wie diese in diesem Fall am sinnvollsten aussehen könnte.

diese Erkenntnis verdeutlicht, dass BI weniger ein technisches Problem ist, sondern das Verständnis der Geschäfsprozesse im Vordergrund steht. Ein Cube wird immer dann angelegt, wenn eine Aufgabe aus den folgenden Bereichen erledigt werden muss:

Die Report Analyse betrachtet die Vergangenheit, indem rückwirkend die "alten" Daten ausgewertet werden. Das Ergebnis könnte auch mit dem klassischen SQL einer relationalen Datenbank erzielt werden (nur mit dem Unterschied, dass dort der Aufwand höher und die Abfrageleistung schlechter ist).
Das Data Mining versucht einen Blick in die Zukunft, indem Vorhersagen basierend auf den "alten" Daten erstellt werden. Da es darum geht, neue Erkenntnisse ans Tageslicht zu bringen, die es in dieser Form gar nicht in den Daten gibt, wurde der treffende Begriff Data Mining gewählt. Mit dem klassischen SQL einer relationalen Datenbank können diese Informationen nicht gewonnen werden, da es vor allem um das halb-automatische Erkennen von Beziehungen, Mustern und Anomalien in großen Datenmengen geht (alias "maschinelles Lernen" alias "künstliche Intelligenz"). Beim Data Mining stehen die folgenden Fragestellungen im Vordergrund:
- Classification (einsortieren in einen Schubkasten)
- Segmentation (Unterscheidungsmerkmals und Ausreißer erkennen)
- Estimation (Vorhersage, Wahrscheinlichkeiten erkennen)
- Association (Beziehungen zwischen Merkmalen erkennen)
- Forecasting (Zeitliche Vorhersage)

Die Dimensions stellen die Gruppierungsmerkmale zur Verfügung. Der Cube kann in verschiedenen Strukturen erstellt werden, die üblichsten sind das Star Schema und das Snowflake Schema. Das Star Schema verwendet pro Dimension ein einzige Dimension Table. Die Fact Table verweist dabei über Fremdschlüssel auf die Dimension Table. Somit bezieht sich jeder Eintrag der Fact Table auf jeweils einen Wert jeder Dimension. Das Star Schema führt somit dazu, dass die Daten in den Dimension Tables immer dann redundant vorliegen, wenn diese Hierarchien bilden. Dieses Problem kann durch das Snowflake Schema vermieden werden. Dort werden die einzelnen Ebenen der Dimensionshierarchien auf mehrere normalisierte Dimension Tables aufgeteilt.

Um zur Frage zurückzukommen. Die Spalten Erstellt , Erstellt von, Zugewiesen an, Fehlerklasse und Problemstatus sind typische Dimensionen, da in den OLAP-Auswertungen wohl danach gruppiert werden wird. Der konkrete Aufbau hängt jedoch davon ab, welches Ergebnis man später bei der Auswertung erhalten möchte. Es ist in einer BI-Anwendung "normal", wenn man mehrere iterative Versuche braucht, da jedes Mal geprüft werden muss, ob das Modell zur Daten-Wirklichkeit und den gestellten Anforderungen passt.

Announcement

Sinnvolle Relation für OLAP Auswertung

Sinnvolle Relation für OLAP Auswertung

Comment