Das Kefk Network Wiki befindet sich im Testbetrieb.
Cube (OLAP)
Aus Kefk.
Ein OLAP-Cube oder Data Cube, Cube-Operator ist ein in der Data-Warehouse-Theorie gebräuchlicher Begriff zur logischen Darstellung von Daten. Die Daten werden dabei als Elemente eines mehrdimensionalen Würfels (engl. Cube) angeordnet. Die Dimensionen des Cubes beschreiben die Daten und erlauben auf einfache Weise den Zugriff. Daten können über eine oder mehrere Achsen des Würfels ausgewählt werden. Die Bezeichnung OLAP stammt aus der Datenanalyse, dem Online Analytical Processing.
Diese Art der Darstellung ist für die Analyse von Daten von Vorteil, da auf verschiedene Aspekte (Dimensionen) der Daten auf gleiche Weise zugegriffen wird. Daher auch der Einsatz bei OLAP Anwendungen, die die Daten in einem Data-Warehouse analysieren oder visuell aufbereiten.
Grundoperationen
- Slicing: Ausschneiden von Scheiben aus dem Datenwürfel
- Dicing: Slicing auf einem Intervall. Hierbei wird ein kleinerer Würfel erzeugt, der einen Teilbereich des Gesamtwürfels enthält.
- Pivoting: Drehen des Datenwürfels
- Drill-Down (/ Roll-Up): Aufbrechen eines Informationsobjekts nach bestimmten Dimensionen; "Hereinzoomen" (Roll-Up stellt die Gegenoperation zu Drill-Down dar)
- Drill-Across: Vertauschen von Achsen des Würfels (z. B. X- mit Y-Achse)
- Drill-Through: Betrachtung von OLTP-Datenbanken, die sich außerhalb des Würfels befinden
Beispiel
Cubes kommen häufig zur Analyse von Unternehmensdaten zum Einsatz, wie z. B. Umsatz, Lagerbestände, Verkäufe. Die Dimensionen, die hier wichtig sein können, sind Zeit, Filiale, Verkäufer, Produkt. Vereinfacht gesagt stellt jede Dimension eine bestimmte Perspektive auf die Fakten dar, wie Umsatz, Gewinn usw..
Der Cube stellt also die Daten Umsatz, Lagerbestand, Verkäufe abhängig von den Dimensionen Zeitpunkt, Filiale, Verkäufer und Produkt dar.
Es lassen sich somit sehr leicht die folgenden Fragen beantworten:
Wieviel Kaffee wurde vergangene Woche in der Filiale Marburg verkauft? Wieviel Kaffee befindet sich dort im Lager? Welcher Verkäufer hat den meisten Kaffee verkauft? Welche Filiale hat vergangenes Jahr den meisten Umsatz gemacht?
Technische Umsetzung
Die Daten werden multidimensional (MOLAP), relational (ROLAP) oder im Hauptspeicher (memory-basierte Analyse) gespeichert. Multidimensionale Systeme bieten schnelleren Zugriff. Die Datenhaltung kann auf einer Festplatte oder im Arbeitsspeicher erfolgen. In der Regel ist ein großer Teil (99,99...%) möglicher Intersektionen im Würfel nicht mit Zahlen belegt (Sparsity). Das Handling dieser Teile des Würfels bedingt die Größe des Datenmodelles und wird von den Systemen unterschiedlich gehandhabt.
Für relationale Systeme ist der Einsatz eines Sternschemas typisch. Dabei wird eine Trennung in eine Faktentabelle und mehrere darum gruppierte Dimensionstabellen vorgenommen.
Eine Alternative für besonders hohe Performance und Flexibilität stellt die memory-basierte Analyse dar.
