Sie sind hier
E-Book

Entwicklung eines skalierbaren und verteilten Datenbanksystems

Auf Basis von Apache Cassandra und SECONDO

AutorJan Kristof Nidzwetzki
VerlagSpringer Vieweg
Erscheinungsjahr2016
Seitenanzahl312 Seiten
ISBN9783658124441
FormatPDF
KopierschutzWasserzeichen/DRM
GerätePC/MAC/eReader/Tablet
Preis46,99 EUR

Jan Kristof Nidzwetzki hat in seiner Masterarbeit ein erweiterbares Datenbanksystem mit einem hochverfügbaren Key-Value-Store gekoppelt und untersucht, wie sich die Vorteile beider Systeme kombinieren lassen. Im Gegensatz zu Datenbanksystemen skalieren Key-Value-Stores sehr gut, bieten jedoch nur sehr einfache Operationen für die Abfrageauswertung an. Durch die Kopplung ergibt sich ein skalierbares, ausfallsicheres System, das in der Lage ist, beliebige Updateraten zu unterstützen und auf den gespeicherten Daten komplexe Abfragen auszuführen.



Jan Kristof Nidzwetzki forschte im Zuge seines Masterstudiums an der Fakultät für Mathematik und Informatik der FernUniversität Hagen. Er ist heute als Softwareentwickler sowie als externer Doktorand am Lehrgebiet Datenbanksysteme für neue Anwendungen der FernUniversität in Hagen tätig. 

Kaufen Sie hier:

Horizontale Tabs

Blick ins Buch
Inhaltsverzeichnis
Geleitwort6
Zusammenfassung8
Inhaltsverzeichnis9
Abbildungsverzeichnis15
Tabellenverzeichnis18
Abkürzungsverzeichnis20
1. Einleitung22
1.1. Ziele dieser Arbeit23
1.2. Aufbau dieser Arbeit24
2. Grundlagen27
2.1. Verteilte Datenbankmanagementsysteme27
2.1.1. Architekturmodelle von VDBMS28
2.1.2. Fragmentierung und Allokation29
2.2. Konsistenz30
2.2.1. Datenzentrierte Konsistenmodelle32
2.2.2. Clientzentrierte Konsistenmodelle33
2.3. Fehlerarten34
2.4. Hashing34
2.4.1. Hashtabellen35
2.4.2. Distributed Hashtables35
2.5. Das CAP-Theorem36
2.6. NoSQL-Datenbanken38
2.6.1. Key Value Stores39
2.7. Cassandra41
2.7.1. DataStax, Inc.42
2.7.2. Grundlagen der Cassandra Query Language42
2.7.3. Zusammengesetzte Primärschlüssel46
2.7.4. Sekundärindizes46
2.7.5. Virtuelle Knoten49
2.7.6. Token-Bereiche49
2.8. Stromverarbeitung50
2.9. Speedup und Scaleup52
2.9.1. Speedup52
2.9.2. Scaleup53
2.10. SECONDO53
2.10.1. Second-Order Signature54
2.10.2. Architektur von SECONDO56
2.10.3. Fortschrittschätzung56
2.11. MapReduce58
2.11.1. Hadoop60
2.12. Parallel SECONDO61
2.12.1. Ausführungspläne in Parallel SECONDO61
2.13. Verwandte Arbeiten61
3. Datenströme66
3.1. Aufzeichnungs- und Analysekomponente66
3.2. Aufzeichnung eines Datenstroms67
3.3. Erweiterung der ImEx-Algebra68
3.3.1. Operator csvimport68
3.4. Loadbalancer71
3.4.1. Scheduling72
3.4.2. Umgang mit Ausfällen75
3.4.3. Anwendung77
3.5. Lastgenerator79
4. Kopplung von SECONDO mit Cassandra82
4.1. Cassandra-Algebra82
4.1.1. Operator cspread84
4.1.2. Operator ccollect86
4.1.3. Operator ccollectlocal87
4.1.4. Operator ccollectrange87
4.1.5. Operator ccollectquery88
4.1.6. Operator clist89
4.1.7. Operator cdelete89
4.1.8. Operator cquerylist91
4.1.9. Operator cqueryexecute92
4.1.10. Operator cqueryreset93
4.1.11. Operator cquerywait93
4.1.12. Operator sleep96
4.1.13. Operator statistics96
4.2. Implementation der Cassandra-Algebra98
4.2.1. Export von SECONDO-Tupeln98
4.2.2. Partitionierung von Tupeln99
4.2.3. Adressierung von Tupeln99
4.2.4. Ablage von SECONDO-Relationen in Cassandra100
4.2.5. Bestimmung der lokalen Token-Bereiche101
4.2.6. Loadbalancing des cpp-Treibers102
4.2.7. Parallelisierung von CQL-Abfragen105
4.2.8. Connection Pool106
4.2.9. Bekannte Probleme106
5. Verteilte Abfrageauswertung109
5.1. Grundlagen109
5.1.1. Partitionierung von Daten110
5.1.2. Verteilter Join – Ein erster Ansatz111
5.2. Distributed SECONDO112
5.2.1. Management-System114
5.2.2. QueryExecutor – Verteilung von Abfragen115
5.2.3. Platzhalter in Abfragen116
5.2.4. Beispielumgebung122
5.2.5. Systemtabellen von Distributed SECONDO122
5.2.6. Management von Distributed SECONDO125
5.2.7. Robuste Partitionierung des logischen Ringes128
5.2.8. Robuste Partitionierung –Beispiele134
5.2.9. Atomares Einbringen von Tupeln138
5.2.10. Robustes Lesen von Relationen141
5.2.11. Verteilter Join – Die robuste Variante143
6. Fallstudien145
6.1. Verarbeiten von Positionsdaten145
6.1.1. Problemstellung145
6.1.2. Lösungsmöglichkeit146
6.1.3. Analyse der Koordinaten149
6.2. Analyse des Logfiles eines Webservers152
6.2.1. Problemstellung152
6.2.2. Lösungsmöglichkeit153
6.3. Partition based spatial merge join157
6.3.1. Problemstellung158
6.3.2. Lösungsmöglichkeit159
6.4. Zusammenfassung162
7. Experimente163
7.1. Umgebung163
7.1.1. Grundlegendes zu den Experimenten163
7.1.2. Hardware des Clusters164
7.1.3. Software des Clusters166
7.1.4. Zusätzlich installierte Software167
7.2. Verarbeitung von Datenströmen168
7.2.1. Durchsatz des Operators csvimport168
7.3. Datenstromverarbeitung auf homogenen Systemen172
7.3.1. Durchführung173
7.3.2. Ergebnis175
7.3.3. Zusammenfassung176
7.4. Datenstromverarbeitung auf heterogenen Systemen178
7.4.1. Durchführung179
7.4.2. Ergebnis180
7.4.3. Einfluss der Größe des Bestätigungsfensters182
7.4.4. Zusammenfassung186
7.5. Cassandra als Datenspeicher187
7.5.1. Anzahl der Cassandra-Knoten187
7.5.2. Konsistenz beim Schreiben190
7.5.3. Lokalität in Cassandra191
7.5.4. Größe der Tupel196
7.5.5. Anzahl der Tupel197
7.6. Distributed SECONDO199
7.6.1. Ausführen von verteilten Abfragen199
7.6.2. Token-Ranges und die Laufzeit von verteilten Abfragen203
7.6.3. Verteilter Join204
7.6.4. Ein verzögerter Join mit erhöhter Laufzeit206
7.6.5. Zeit für den Im- und Export von Tupeln214
7.6.6. Verteilter spatial Join214
7.6.7. Verteilter spatial Join ohne Rückschreiben der Ergebnisse220
7.6.8. Fortschrittschätzung226
7.6.9. Fazit228
8. Zusammenfassung und Ausblick229
8.1. Erweiterungen229
8.1.1. Anzahl der Distributed SECONDO-Knoten230
8.1.2. Automatische Skalierung230
8.1.3. Prepared Statements in SECONDO231
8.1.4. Laden von einzelnen Token232
8.1.5. Umstellung auf einen neuen Cassandra-Treiber232
8.2. Ausblick233
Anhang A. Veränderungen am DataStax cpp-driver235
Anhang B. Verwendete Bibliotheken238
Anhang C. Im Cluster eingesetzte Festplatten240
Anhang D. UML-Diagramme243
D.1. CSV-Parser243
D.2. Loadbalancer244
Anhang E. Codeblöcke245
E.1. Zu Kapitel 5 gehörende Codeblöcke245
E.2. Zu Kapitel 6 gehörende Codeblöcke247
E.3. Zu Kapitel 7 gehörende Codeblöcke250
Anhang F. Übersicht über Cassandra257
F.1. Einleitung257
F.1.1. Geschichte258
F.1.2. Grundlagen258
F.1.3. Einsatzbereiche259
F.2. Cassandra260
F.2.1. Datenmodell260
F.2.2. Architektur von Cassandra263
F.2.3. Lesen und Schreiben von Daten269
F.2.4. Sicherheit275
F.2.5. Performance276
F.3. Erweiterungen von Cassandra277
F.3.1. CQL– Cassandra Query Language278
F.3.2. Integration von Hadoop279
F.4. Fazit280
Anhang G. Scripte281
Anhang H. Quellcode299
Listingverzeichnis300
Literaturverzeichnis302

Weitere E-Books zum Thema: Internet - Intranet - Webdesign - Security

Internet für Psychologen

E-Book Internet für Psychologen
Format: PDF

Das Internet kurz zu erklären und gleichzeitig einen aktuellen Überblick über psychologische Themen und Forschungsschwerpunkte zu geben, ist wohl ein hoffnungsloses Unterfangen. Zu…

Internet für Psychologen

E-Book Internet für Psychologen
Format: PDF

Das Internet kurz zu erklären und gleichzeitig einen aktuellen Überblick über psychologische Themen und Forschungsschwerpunkte zu geben, ist wohl ein hoffnungsloses Unterfangen. Zu…

Internet für Psychologen

E-Book Internet für Psychologen
Format: PDF

Das Internet kurz zu erklären und gleichzeitig einen aktuellen Überblick über psychologische Themen und Forschungsschwerpunkte zu geben, ist wohl ein hoffnungsloses Unterfangen. Zu…

Internet für Psychologen

E-Book Internet für Psychologen
Format: PDF

Das Internet kurz zu erklären und gleichzeitig einen aktuellen Überblick über psychologische Themen und Forschungsschwerpunkte zu geben, ist wohl ein hoffnungsloses Unterfangen. Zu…

Texten für das Web

E-Book Texten für das Web
Erfolgreich werben, erfolgreich verkaufen Format: PDF

Dieses Buch bietet das nötige Handwerkszeug, um die Qualität der eigenen Web-Texte zu verbessern bzw. eingekaufte Texte sicherer beurteilen zu können. Es liefert klare Kriterien für die Textanalyse,…

Texten für das Web

E-Book Texten für das Web
Erfolgreich werben, erfolgreich verkaufen Format: PDF

Dieses Buch bietet das nötige Handwerkszeug, um die Qualität der eigenen Web-Texte zu verbessern bzw. eingekaufte Texte sicherer beurteilen zu können. Es liefert klare Kriterien für die Textanalyse,…

Texten für das Web

E-Book Texten für das Web
Erfolgreich werben, erfolgreich verkaufen Format: PDF

Dieses Buch bietet das nötige Handwerkszeug, um die Qualität der eigenen Web-Texte zu verbessern bzw. eingekaufte Texte sicherer beurteilen zu können. Es liefert klare Kriterien für die Textanalyse,…

TCP/IP-Praxis

E-Book TCP/IP-Praxis
Dienste, Sicherheit, Troubleshooting Format: PDF

Netzwerke modernen Standards verlangen weniger nach Rezepten für Neu - Design als vielmehr nach Wegen, Maßnahmen zur Integration in eine bestehende Infrastruktur aufzuzeigen. Diesem Aspekt trägt TCP/…

E-Learning

E-Book E-Learning
Einsatzkonzepte und Geschäftsmodelle Format: PDF

Der vorliegende Band ist dem Lernen und Lehren auf der Basis moderner Informations- und Kommunikationstechnologien gewidmet. Das Buch fasst die wichtigsten Ansätze zur Einführung, Umsetzung und…

E-Learning

E-Book E-Learning
Einsatzkonzepte und Geschäftsmodelle Format: PDF

Der vorliegende Band ist dem Lernen und Lehren auf der Basis moderner Informations- und Kommunikationstechnologien gewidmet. Das Buch fasst die wichtigsten Ansätze zur Einführung, Umsetzung und…

Weitere Zeitschriften

ARCH+.

ARCH+.

ARCH+ ist eine unabhängige, konzeptuelle Zeitschrift für Architektur und Urbanismus. Der Name ist zugleich Programm: mehr als Architektur. Jedes vierteljährlich erscheinende Heft beleuchtet ...

Ärzte Zeitung

Ärzte Zeitung

Zielgruppe:  Niedergelassene Allgemeinmediziner, Praktiker und Internisten. Charakteristik:  Die Ärzte Zeitung liefert 3 x pro Woche bundesweit an niedergelassene Mediziner ...

AUTOCAD & Inventor Magazin

AUTOCAD & Inventor Magazin

FÜHREND - Das AUTOCAD & Inventor Magazin berichtet seinen Lesern seit 30 Jahren ausführlich über die Lösungsvielfalt der SoftwareLösungen des Herstellers Autodesk. Die Produkte gehören zu ...

care konkret

care konkret

care konkret ist die Wochenzeitung für Entscheider in der Pflege. Ambulant wie stationär. Sie fasst topaktuelle Informationen und Hintergründe aus der Pflegebranche kompakt und kompetent für Sie ...

Courier

Courier

The Bayer CropScience Magazine for Modern AgriculturePflanzenschutzmagazin für den Landwirt, landwirtschaftlichen Berater, Händler und generell am Thema Interessierten, mit umfassender ...

Deutsche Hockey Zeitung

Deutsche Hockey Zeitung

Informiert über das nationale und internationale Hockey. Die Deutsche Hockeyzeitung ist Ihr kompetenter Partner für Ihren Auftritt im Hockeymarkt. Sie ist die einzige bundesweite Hockeyzeitung ...

Euphorion

Euphorion

EUPHORION wurde 1894 gegründet und widmet sich als „Zeitschrift für Literaturgeschichte“ dem gesamten Fachgebiet der deutschen Philologie. Mindestens ein Heft pro Jahrgang ist für die ...