Sie sind hier
E-Book

Data Warehouse Factory: BI-Automation durch Data Vault mit SSIS und SAS Base

AutorChristian Garbsch, Dominik Kroner
VerlagDiplomica Verlag GmbH
Erscheinungsjahr2018
Seitenanzahl124 Seiten
ISBN9783961461486
FormatPDF
Kopierschutzkein Kopierschutz
GerätePC/MAC/eReader/Tablet
Preis29,99 EUR
Das vorliegende Buch stellt die konkrete Umsetzung sowie Vor- und Nachteile einer Business Intelligence Automatisierung durch Data Vault dar. Das Data Vault ist eine alternative Modellierungsvariante für Enterprise Data Warehouses. Durch die Verwendung von drei Entitätstypen verfolgt es eine strikte Trennung von Geschäftsschlüsseln, deren Zusammenhängen sowie der Kontextinformationen. Die dadurch mögliche Flexibilität positioniert Data Vault als Kompromiss zwischen bereits bewährten Architekturvarianten. Hinzu kommt der Anspruch eine 'einzige Version der Fakten' zu schaffen, indem alle Quelldaten im ersten Schritt nur kopiert und nicht verändert werden. Gemeinsam mit den Regeln für die drei Entitätstypen stellt dies eine ideale Ausgangslage zur automatisierten Befüllung eines DWHs dar. Die Menge an bestehender Automatisierungssoftware beweist das Automatisierungspotenzial von Data Vault, wobei hinsichtlich der Befüllung lediglich zwei Ansätze verwendet werden: der dynamische Ladeprozess sowie die Generierung eines Ladeprozesses. Dieses Werk ist eine korrigierte Neuausgabe des 2014 veröffentlichten Buches 'Business Intelligence Automatisierung durch Data Vault'.

Kaufen Sie hier:

Horizontale Tabs

Leseprobe
Textprobe: Kapitel 3.1.3: BI-Ready: BIReady ist eine Automatisierung für eine DWH-Befüllung, welche vom gleichnamigen Unternehmen entwickelt wurde. Diese Automatisierung umfasst sowohl das Design eines DWHs, als auch die Implementierung und Wartung. Ausgelegt wurde das Tool auf die Implementierung eines Stern- oder Schneeflockenschemas. Neu hinzugefügt wurde auch eine Unterstützung für DV. Eine grundlegende Idee dieses Tools ist ebenfalls die Beachtung eines bestimmten Punktes im ETL-Prozess, bis zu welchem die Daten automatisiert durch einen reinen Kopiervorgang geladen werden können. In dem Tool kann das Datenmodell grafisch erstellt werden. Dieses gestaltet sich sehr unkompliziert und variabel. Es bietet eine unkomplizierte Handhabung einer Historisierung an. Der Vorteil des DV-Konzepts ist es, dass viele dieser Überlegungen vom Modell bereits übernommen werden. Beispielsweise ist eine Historisierung der Daten bereits durch den LDTS gesichert. Im Gegensatz zu den anderen in diesem Buch beschriebenen Tools und Automatisierungen muss der Prozess an sich aber trotzdem einmal für ein DV-Modell erstellt werden und kann folgend für weitere Modelle angepasst werden. Daraus lässt sich der angepasste SQL-Code generieren, je nachdem für welche Datenbank er gebraucht wird. 3.1.4: PDI DV Framework: Das Pentaho Data Integration Data Vault Framework (PDI DV Framework) ist eine vollständige Sammlung an Programmen und Dateien für die automatisierte Befüllung eines DVs. Angewandt wird hierfür ein mit Pentaho Kettle entwickelter dynamischer Ladeprozess. Entwickelt wurde es von dem niederländischen BI-Experten Edwin Weber. Es als eine virtuelle Maschine verfügbar und kann somit komplett eigenständig genutzt werden. Als Betriebssystem nutzt es Ubuntu 12.04 LTS Server. Es beinhaltet eine MySQL-Datenbank zur Speicherung der Daten. Ein Beispiel DV-Datenbankschema ist ebenfalls enthalten. Um das Schema für das eigene DV aufzubauen ist die MySQL-Workbench enthalten. Gesteuert wird das Framework durch die Verwendung von Metadaten. Diese Metadaten werden in einer Excel-Datei gepflegt und in dem Prozess in eine Datenbank geschrieben und gehalten. In diese Metadaten muss eingetragen werden, welche Hubs, Links und Satelliten es, mit ihren jeweiligen Attributen, in dem DV gibt. Das Open Source-ETL-Tool Kettle von Pentaho liest diese Metadaten aus und der Prozess wird für das zu befüllende DV flexibel angepasst ausgeführt. Es dient lediglich der Befüllung und das Datenbankschema muss manuell aufgebaut werden. Um den Einsatz und Umgang mit dem Framework und dem DV-Modell nachvollziehbar zu halten ist eine Versionskontrolle enthalten. Diese hält fest, wann und welche Änderungen vorgenommen wurden. Zuerst werden die Hubs und anschließend die Links befüllt. Anschließend werden Hub-Satelliten und Link-Satelliten befüllt, wie bereits in Kapitel 2.2 näher erläutert. 3.2: Mögliche Automatisierung von Ladeprozessen: Die bisher scheinbar am weitesten verbreitete Methode zur automatischen Befüllung eines DWH, oder spezieller eines DV-basierten DWH, ist die automatisierte Generierung von Ladeprozessen. Darauf lässt sich insofern schließen, als dass die meisten in Kapitel 3.1 vorgestellten und erhältlichen Anwendungen auf diese Weise arbeiten. Abbildung 8 stellt eine denkbare Vorgehensweise schematisch dar. Grundlage sind zentral gespeicherte Metadaten. Je nach Anforderung des Prozessgenerators beschreiben diese sowohl den Aufbau und die Datenstruktur von Quell- sowie Zielsystemen, als auch die Beziehung dazwischen. So wird in den Metadaten festgelegt, welche Rohdaten in welcher Tabelle des DV gespeichert werden sollen (für genauere Angaben siehe Kapitel 4.4). Der Generator verwendet diese Informationen zum Erstellen der Ladeprozesse. Schließlich müssen die generierten Prozesse noch ausgeführt werden. Sie sorgen dann für den Datenfluss (weiße Pfeile) vom Quellsystem ins DV. Zur Vereinfachung und Reduktion der Metadaten wäre noch eine Verbindung zwischen dem Prozessgenerator sowie dem Quellsystem denkbar. Werden zum Beispiel die Datentypen der einzelnen Attribute vom Generator benötigt, könnte er diese selbst aus dem Quellsystem lesen. Ein Nachteil dieses Ansatzes ist, dass bei jeder Änderung der steuernden Metadaten, also Änderungen an den Quell- oder Zielsystemen, die Ladeprozesse neu erzeugt werden müssen und somit nicht unmittelbar zur Verfügung stehen.
Blick ins Buch

Weitere E-Books zum Thema: Software - Betriebssysteme - Anwenderprogramme

Softwaretechnik

E-Book Softwaretechnik
Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Softwaretechnik

E-Book Softwaretechnik
Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Softwaretechnik

E-Book Softwaretechnik
Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Statistische Grafiken mit Excel

E-Book Statistische Grafiken mit Excel
Format: PDF

Die grafische Veranschaulichung von Sachverhalten oder Entwicklungsverläufen spielt in allen empirisch orientierten Bereichen eine besondere Rolle. Empirische Informationen grafisch aufzubereiten,…

Statistische Grafiken mit Excel

E-Book Statistische Grafiken mit Excel
Format: PDF

Die grafische Veranschaulichung von Sachverhalten oder Entwicklungsverläufen spielt in allen empirisch orientierten Bereichen eine besondere Rolle. Empirische Informationen grafisch aufzubereiten,…

Computergrafik und OpenGL

E-Book Computergrafik und OpenGL
Format: PDF

Das Lehrbuch stellt die theoretischen Grundlagen zu den wichtigsten Themenbereichen der Computergrafik, wie Rastergrafik, Modellierung, Transformation, Projektion, Clipping, Sichtbarkeit, Farbe und…

Computergrafik und OpenGL

E-Book Computergrafik und OpenGL
Format: PDF

Das Lehrbuch stellt die theoretischen Grundlagen zu den wichtigsten Themenbereichen der Computergrafik, wie Rastergrafik, Modellierung, Transformation, Projektion, Clipping, Sichtbarkeit, Farbe und…

Computergrafik und OpenGL

E-Book Computergrafik und OpenGL
Format: PDF

Das Lehrbuch stellt die theoretischen Grundlagen zu den wichtigsten Themenbereichen der Computergrafik, wie Rastergrafik, Modellierung, Transformation, Projektion, Clipping, Sichtbarkeit, Farbe und…

Citrix Presentation Server

E-Book Citrix Presentation Server
Format: PDF

Der Citrix MetaFrame Presentation Server ist unangefochtener Marktführer unter den Terminalservern für Windows-Systeme. Unternehmen setzen ihn ein, um die Systemverwaltung von Windows-Netzwerken…

Citrix Presentation Server

E-Book Citrix Presentation Server
Format: PDF

Der Citrix MetaFrame Presentation Server ist unangefochtener Marktführer unter den Terminalservern für Windows-Systeme. Unternehmen setzen ihn ein, um die Systemverwaltung von Windows-Netzwerken…

Weitere Zeitschriften

ARCH+.

ARCH+.

ARCH+ ist eine unabhängige, konzeptuelle Zeitschrift für Architektur und Urbanismus. Der Name ist zugleich Programm: mehr als Architektur. Jedes vierteljährlich erscheinende Heft beleuchtet ...

aufstieg

aufstieg

Zeitschrift der NaturFreunde in Württemberg Die Natur ist unser Lebensraum: Ort für Erholung und Bewegung, zum Erleben und Forschen; sie ist ein schützenswertes Gut. Wir sind aktiv in der Natur ...

BEHINDERTEPÄDAGOGIK

BEHINDERTEPÄDAGOGIK

Für diese Fachzeitschrift arbeiten namhafte Persönlichkeiten aus den verschiedenen Fotschungs-, Lehr- und Praxisbereichen zusammen. Zu ihren Aufgaben gehören Prävention, Früherkennung, ...

SPORT in BW (Württemberg)

SPORT in BW (Württemberg)

SPORT in BW (Württemberg) ist das offizielle Verbandsorgan des Württembergischen Landessportbund e.V. (WLSB) und Informationsmagazin für alle im Sport organisierten Mitglieder in Württemberg. ...