Announcement

Collapse
No announcement yet.

Mining OLAP Cubes

Collapse
X
  • Filter
  • Time
  • Show
Clear All
new posts

  • Mining OLAP Cubes

    Hallo zusammen,

    für ein Projekt an der Fachhochschule muss ich das Thema „Mining Olap Cubes“ näher beleuchten. Da ich bisher nur in zwei Büchern Informationen zu diesem Thema gefunden haben, würde ich gerne von euch mal wissen, was zur Beleuchtung des Themengebietes integriert sein sollte.

    Zum Verständnis:

    Verstehe ich das richtig, dass man OLAP Cubes mined, um schneller als bei reltationalen Datenbanken Korrelationen zwischen den Daten zu finden, die eine bestimmte Zielvariable beeinflussen?

    Welche Probleme / Besonderheiten gibt es beim minen von Olap Cubes im Gegensatz zum „normalen“ Mining (z.B. wenn man das Crisp DM Model durchspielt).

    Was passiert z.B. mit leeren Feldern im Cube (habt Ihr da zufällig eine Antwort drauf)?

    Wäre super nett, wenn Ihr mir sagen würdet was für euch zur umfassenden Darstellung des Themengebietes gehört. Sofern Ihr behilfliche Links hab wäre ich auch nicht abgeneigt J Mir wäre aber auch schon geholfen, wenn Ihr mir ein paar Stichwörter nennen könntet, die ich dann nachrecherchieren könnte.

    Vielen Dank im voraus.

  • #2
    Hallo,

    das Thema Data Mining ist sehr "groß", so dass es schwierig ist, eine kompakte Antwort zu finden. Das Mining hat generell zwei verschiedene Ausprägungen:

    1. Die Report Analyse betrachtet die Vergangenheit, indem rückwirkend die "alten" Daten ausgewertet werden. Das Ergebnis könnte auch mit dem klassischen SQL einer relationalen Datenbank erzielt werden (nur mit dem Unterschied, dass dort der Aufwand höher und die Abfrageleistung schlechter ist).

    2. Das Data Mining versucht einen Blick in die Zukunft, indem Vorhersagen basierend auf den "alten" Daten erstellt werden. Da es darum geht, neue Erkenntnisse ans Tageslicht zu bringen, die es in dieser Form gar nicht in den Daten gibt, wurde der treffende Begriff Data Mining gewählt. Mit dem klassischen SQL einer relationalen Datenbank können diese Informationen nicht gewonnen werden, da es vor allem um das halb-automatische Erkennen von Beziehungen, Mustern und Anomalien in großen Datenmengen geht (alias "maschinelles Lernen"). Beim Data Mining stehen die folgenden Fragestellungen im Vordergrund:

    - Classification (einsortieren in einen Schubkasten)
    - Segmentation (Unterscheidungsmerkmals und Ausreißer erkennen)
    - Estimation (Vorhersage, Wahrscheinlichkeiten erkennen)
    - Association (Beziehungen zwischen Merkmalen erkennen)
    - Forecasting (Zeitliche Vorhersage)

    Die OLAP Cubes speichern die Daten bereits vorberechnet in mehreren Dimensionen so ab, dass bei typischen Auswertungen sofort die fertigen Ergebnisse vorliegen (eine konventionelle, normalisierte Datenbank würde im Unterschied dazu die Berechnungen erst zur Laufzeit über SQL ausführen). Sogar im Fall von dynamischen Ad-Hoc-Auswertungen (d.h. es wurde vorher kein Cube definiert) kann OLAP die Ergebnisse schneller liefern, da der verwendete Datenspeicher (d.h. die Datenbank) nach anderen Gesichtspunkten aufgebaut wurde und somit bestimmte ressourcenintensive Aufgaben (Verwalten von Index-Einträgen, Ergebnismengenaufbau über JOINs, Datensatzsperren etc.) entfallen.

    Welche Probleme ...
    Der Entwicklungsprozess einer Data Mining-Lösung ist komplizierter als bei einer normalen Datenbankanwendung. Der Erfolg (oder Misserfolg) hängt entscheidend vom Verständnis des Geschäftsprozesses ab. Anscheinend ist es normal, dass mehrere (iterative) Abstimmungsläufe notwendig sind, bis am Ende die "richtigen" Fakt- und Dimensionstabellen zusammengestellt sind.
    Zuletzt editiert von Andreas Kosch; 17.01.2007, 14:52.

    Comment

    Working...
    X